Romain-XV commited on
Commit
58cfe23
·
verified ·
1 Parent(s): 18c2593

Training in progress, step 500, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:30bed0be07b2d262a7c9c2ee8a0b78c224c223f1dfe6648616e1f608c414714b
3
  size 144805440
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7a5302ed989b61bbf3c5a89d0ce9797280641e435ec2e9f80f205c1902119adb
3
  size 144805440
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c2c1169ba7d2c7f4cb773678dd77d250d9458b9f604eb63ec725d7237ee35516
3
  size 74292308
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2280588a779f8600beb802cf022367cb692da9b34ac083f171a98b0ae124ae64
3
  size 74292308
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:557756899814dbd279052b049fe3fe1a6703f1aa93f393d968ec951e02adc041
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:79d41988296ff7641dd7197ea779bba77e30e921990ba55a18499232a9f57fb0
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:dfd113e2bf8a699da59a6073bb1bcb18aa32fb9667d59893641ceb623ba2aa2b
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9dc8764f26b1f60541ddcf4504ff4cf226063bff9c4b473f4392b732534a0b84
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 1.2253398895263672,
3
- "best_model_checkpoint": "miner_id_24/checkpoint-400",
4
- "epoch": 0.05085217114933852,
5
  "eval_steps": 100,
6
- "global_step": 400,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2847,6 +2847,714 @@
2847
  "eval_samples_per_second": 3.975,
2848
  "eval_steps_per_second": 0.994,
2849
  "step": 400
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2850
  }
2851
  ],
2852
  "logging_steps": 1,
@@ -2875,7 +3583,7 @@
2875
  "attributes": {}
2876
  }
2877
  },
2878
- "total_flos": 4.145600090918093e+18,
2879
  "train_batch_size": 4,
2880
  "trial_name": null,
2881
  "trial_params": null
 
1
  {
2
+ "best_metric": 1.22141695022583,
3
+ "best_model_checkpoint": "miner_id_24/checkpoint-500",
4
+ "epoch": 0.06356521393667315,
5
  "eval_steps": 100,
6
+ "global_step": 500,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2847
  "eval_samples_per_second": 3.975,
2848
  "eval_steps_per_second": 0.994,
2849
  "step": 400
2850
+ },
2851
+ {
2852
+ "epoch": 0.05097930157721187,
2853
+ "grad_norm": 0.19073964655399323,
2854
+ "learning_rate": 3.5918795244702396e-05,
2855
+ "loss": 1.1798,
2856
+ "step": 401
2857
+ },
2858
+ {
2859
+ "epoch": 0.05110643200508522,
2860
+ "grad_norm": 0.19348806142807007,
2861
+ "learning_rate": 3.547489380015701e-05,
2862
+ "loss": 1.2429,
2863
+ "step": 402
2864
+ },
2865
+ {
2866
+ "epoch": 0.05123356243295856,
2867
+ "grad_norm": 0.201893150806427,
2868
+ "learning_rate": 3.503316020289429e-05,
2869
+ "loss": 1.2302,
2870
+ "step": 403
2871
+ },
2872
+ {
2873
+ "epoch": 0.05136069286083191,
2874
+ "grad_norm": 0.20248207449913025,
2875
+ "learning_rate": 3.459360929381931e-05,
2876
+ "loss": 1.2295,
2877
+ "step": 404
2878
+ },
2879
+ {
2880
+ "epoch": 0.051487823288705256,
2881
+ "grad_norm": 0.20291946828365326,
2882
+ "learning_rate": 3.415625584050557e-05,
2883
+ "loss": 1.2925,
2884
+ "step": 405
2885
+ },
2886
+ {
2887
+ "epoch": 0.0516149537165786,
2888
+ "grad_norm": 0.19170844554901123,
2889
+ "learning_rate": 3.372111453669864e-05,
2890
+ "loss": 1.1825,
2891
+ "step": 406
2892
+ },
2893
+ {
2894
+ "epoch": 0.05174208414445195,
2895
+ "grad_norm": 0.1890149712562561,
2896
+ "learning_rate": 3.328820000182262e-05,
2897
+ "loss": 1.149,
2898
+ "step": 407
2899
+ },
2900
+ {
2901
+ "epoch": 0.051869214572325295,
2902
+ "grad_norm": 0.20486074686050415,
2903
+ "learning_rate": 3.285752678048892e-05,
2904
+ "loss": 1.1458,
2905
+ "step": 408
2906
+ },
2907
+ {
2908
+ "epoch": 0.05199634500019864,
2909
+ "grad_norm": 0.20006342232227325,
2910
+ "learning_rate": 3.242910934200775e-05,
2911
+ "loss": 1.2031,
2912
+ "step": 409
2913
+ },
2914
+ {
2915
+ "epoch": 0.05212347542807199,
2916
+ "grad_norm": 0.20113137364387512,
2917
+ "learning_rate": 3.2002962079901744e-05,
2918
+ "loss": 1.2474,
2919
+ "step": 410
2920
+ },
2921
+ {
2922
+ "epoch": 0.052250605855945334,
2923
+ "grad_norm": 0.1928662657737732,
2924
+ "learning_rate": 3.157909931142257e-05,
2925
+ "loss": 1.2189,
2926
+ "step": 411
2927
+ },
2928
+ {
2929
+ "epoch": 0.05237773628381868,
2930
+ "grad_norm": 0.19416049122810364,
2931
+ "learning_rate": 3.115753527706986e-05,
2932
+ "loss": 1.2506,
2933
+ "step": 412
2934
+ },
2935
+ {
2936
+ "epoch": 0.05250486671169203,
2937
+ "grad_norm": 0.19863539934158325,
2938
+ "learning_rate": 3.073828414011274e-05,
2939
+ "loss": 1.2019,
2940
+ "step": 413
2941
+ },
2942
+ {
2943
+ "epoch": 0.05263199713956537,
2944
+ "grad_norm": 0.19736243784427643,
2945
+ "learning_rate": 3.0321359986114096e-05,
2946
+ "loss": 1.2718,
2947
+ "step": 414
2948
+ },
2949
+ {
2950
+ "epoch": 0.05275912756743872,
2951
+ "grad_norm": 0.200786292552948,
2952
+ "learning_rate": 2.9906776822457205e-05,
2953
+ "loss": 1.2523,
2954
+ "step": 415
2955
+ },
2956
+ {
2957
+ "epoch": 0.05288625799531207,
2958
+ "grad_norm": 0.19629159569740295,
2959
+ "learning_rate": 2.9494548577875192e-05,
2960
+ "loss": 1.2156,
2961
+ "step": 416
2962
+ },
2963
+ {
2964
+ "epoch": 0.05301338842318541,
2965
+ "grad_norm": 0.19293853640556335,
2966
+ "learning_rate": 2.9084689101983075e-05,
2967
+ "loss": 1.2422,
2968
+ "step": 417
2969
+ },
2970
+ {
2971
+ "epoch": 0.053140518851058756,
2972
+ "grad_norm": 0.19834856688976288,
2973
+ "learning_rate": 2.8677212164812462e-05,
2974
+ "loss": 1.1569,
2975
+ "step": 418
2976
+ },
2977
+ {
2978
+ "epoch": 0.05326764927893211,
2979
+ "grad_norm": 0.19939422607421875,
2980
+ "learning_rate": 2.827213145634887e-05,
2981
+ "loss": 1.18,
2982
+ "step": 419
2983
+ },
2984
+ {
2985
+ "epoch": 0.05339477970680545,
2986
+ "grad_norm": 0.20803573727607727,
2987
+ "learning_rate": 2.7869460586071873e-05,
2988
+ "loss": 1.2536,
2989
+ "step": 420
2990
+ },
2991
+ {
2992
+ "epoch": 0.053521910134678795,
2993
+ "grad_norm": 0.20102088153362274,
2994
+ "learning_rate": 2.7469213082497736e-05,
2995
+ "loss": 1.2664,
2996
+ "step": 421
2997
+ },
2998
+ {
2999
+ "epoch": 0.053649040562552146,
3000
+ "grad_norm": 0.20080140233039856,
3001
+ "learning_rate": 2.7071402392725097e-05,
3002
+ "loss": 1.2931,
3003
+ "step": 422
3004
+ },
3005
+ {
3006
+ "epoch": 0.05377617099042549,
3007
+ "grad_norm": 0.19506552815437317,
3008
+ "learning_rate": 2.6676041881982962e-05,
3009
+ "loss": 1.2461,
3010
+ "step": 423
3011
+ },
3012
+ {
3013
+ "epoch": 0.053903301418298834,
3014
+ "grad_norm": 0.19534236192703247,
3015
+ "learning_rate": 2.6283144833181783e-05,
3016
+ "loss": 1.1971,
3017
+ "step": 424
3018
+ },
3019
+ {
3020
+ "epoch": 0.054030431846172185,
3021
+ "grad_norm": 0.20050783455371857,
3022
+ "learning_rate": 2.589272444646723e-05,
3023
+ "loss": 1.169,
3024
+ "step": 425
3025
+ },
3026
+ {
3027
+ "epoch": 0.05415756227404553,
3028
+ "grad_norm": 0.201995849609375,
3029
+ "learning_rate": 2.5504793838776586e-05,
3030
+ "loss": 1.2758,
3031
+ "step": 426
3032
+ },
3033
+ {
3034
+ "epoch": 0.05428469270191887,
3035
+ "grad_norm": 0.20075969398021698,
3036
+ "learning_rate": 2.5119366043398264e-05,
3037
+ "loss": 1.2455,
3038
+ "step": 427
3039
+ },
3040
+ {
3041
+ "epoch": 0.054411823129792224,
3042
+ "grad_norm": 0.19450737535953522,
3043
+ "learning_rate": 2.473645400953366e-05,
3044
+ "loss": 1.2319,
3045
+ "step": 428
3046
+ },
3047
+ {
3048
+ "epoch": 0.05453895355766557,
3049
+ "grad_norm": 0.19657433032989502,
3050
+ "learning_rate": 2.4356070601862324e-05,
3051
+ "loss": 1.2031,
3052
+ "step": 429
3053
+ },
3054
+ {
3055
+ "epoch": 0.05466608398553891,
3056
+ "grad_norm": 0.1956198513507843,
3057
+ "learning_rate": 2.3978228600109565e-05,
3058
+ "loss": 1.2345,
3059
+ "step": 430
3060
+ },
3061
+ {
3062
+ "epoch": 0.05479321441341226,
3063
+ "grad_norm": 0.19880710542201996,
3064
+ "learning_rate": 2.3602940698617325e-05,
3065
+ "loss": 1.3102,
3066
+ "step": 431
3067
+ },
3068
+ {
3069
+ "epoch": 0.05492034484128561,
3070
+ "grad_norm": 0.19965411722660065,
3071
+ "learning_rate": 2.3230219505917426e-05,
3072
+ "loss": 1.2873,
3073
+ "step": 432
3074
+ },
3075
+ {
3076
+ "epoch": 0.05504747526915895,
3077
+ "grad_norm": 0.19630952179431915,
3078
+ "learning_rate": 2.2860077544308124e-05,
3079
+ "loss": 1.272,
3080
+ "step": 433
3081
+ },
3082
+ {
3083
+ "epoch": 0.0551746056970323,
3084
+ "grad_norm": 0.19560639560222626,
3085
+ "learning_rate": 2.249252724943336e-05,
3086
+ "loss": 1.2593,
3087
+ "step": 434
3088
+ },
3089
+ {
3090
+ "epoch": 0.055301736124905645,
3091
+ "grad_norm": 0.20019298791885376,
3092
+ "learning_rate": 2.2127580969864925e-05,
3093
+ "loss": 1.2723,
3094
+ "step": 435
3095
+ },
3096
+ {
3097
+ "epoch": 0.05542886655277899,
3098
+ "grad_norm": 0.20072917640209198,
3099
+ "learning_rate": 2.176525096668769e-05,
3100
+ "loss": 1.2069,
3101
+ "step": 436
3102
+ },
3103
+ {
3104
+ "epoch": 0.05555599698065234,
3105
+ "grad_norm": 0.20204520225524902,
3106
+ "learning_rate": 2.1405549413087544e-05,
3107
+ "loss": 1.2361,
3108
+ "step": 437
3109
+ },
3110
+ {
3111
+ "epoch": 0.055683127408525684,
3112
+ "grad_norm": 0.20441173017024994,
3113
+ "learning_rate": 2.1048488393942454e-05,
3114
+ "loss": 1.1882,
3115
+ "step": 438
3116
+ },
3117
+ {
3118
+ "epoch": 0.05581025783639903,
3119
+ "grad_norm": 0.1971142739057541,
3120
+ "learning_rate": 2.0694079905416473e-05,
3121
+ "loss": 1.2168,
3122
+ "step": 439
3123
+ },
3124
+ {
3125
+ "epoch": 0.05593738826427238,
3126
+ "grad_norm": 0.20565344393253326,
3127
+ "learning_rate": 2.0342335854556737e-05,
3128
+ "loss": 1.2486,
3129
+ "step": 440
3130
+ },
3131
+ {
3132
+ "epoch": 0.05606451869214572,
3133
+ "grad_norm": 0.19731251895427704,
3134
+ "learning_rate": 1.9993268058893343e-05,
3135
+ "loss": 1.116,
3136
+ "step": 441
3137
+ },
3138
+ {
3139
+ "epoch": 0.05619164912001907,
3140
+ "grad_norm": 0.19447311758995056,
3141
+ "learning_rate": 1.964688824604234e-05,
3142
+ "loss": 1.2497,
3143
+ "step": 442
3144
+ },
3145
+ {
3146
+ "epoch": 0.05631877954789242,
3147
+ "grad_norm": 0.2041405290365219,
3148
+ "learning_rate": 1.930320805331176e-05,
3149
+ "loss": 1.2843,
3150
+ "step": 443
3151
+ },
3152
+ {
3153
+ "epoch": 0.05644590997576576,
3154
+ "grad_norm": 0.20058204233646393,
3155
+ "learning_rate": 1.896223902731058e-05,
3156
+ "loss": 1.2685,
3157
+ "step": 444
3158
+ },
3159
+ {
3160
+ "epoch": 0.056573040403639106,
3161
+ "grad_norm": 0.20194143056869507,
3162
+ "learning_rate": 1.8623992623560893e-05,
3163
+ "loss": 1.2751,
3164
+ "step": 445
3165
+ },
3166
+ {
3167
+ "epoch": 0.05670017083151246,
3168
+ "grad_norm": 0.20336030423641205,
3169
+ "learning_rate": 1.828848020611288e-05,
3170
+ "loss": 1.2362,
3171
+ "step": 446
3172
+ },
3173
+ {
3174
+ "epoch": 0.0568273012593858,
3175
+ "grad_norm": 0.2054579108953476,
3176
+ "learning_rate": 1.7955713047163157e-05,
3177
+ "loss": 1.2254,
3178
+ "step": 447
3179
+ },
3180
+ {
3181
+ "epoch": 0.056954431687259145,
3182
+ "grad_norm": 0.20549102127552032,
3183
+ "learning_rate": 1.762570232667595e-05,
3184
+ "loss": 1.2574,
3185
+ "step": 448
3186
+ },
3187
+ {
3188
+ "epoch": 0.057081562115132496,
3189
+ "grad_norm": 0.2029975950717926,
3190
+ "learning_rate": 1.7298459132007627e-05,
3191
+ "loss": 1.2066,
3192
+ "step": 449
3193
+ },
3194
+ {
3195
+ "epoch": 0.05720869254300584,
3196
+ "grad_norm": 0.20551042258739471,
3197
+ "learning_rate": 1.6973994457534026e-05,
3198
+ "loss": 1.2384,
3199
+ "step": 450
3200
+ },
3201
+ {
3202
+ "epoch": 0.057335822970879184,
3203
+ "grad_norm": 0.20290708541870117,
3204
+ "learning_rate": 1.6652319204281187e-05,
3205
+ "loss": 1.2257,
3206
+ "step": 451
3207
+ },
3208
+ {
3209
+ "epoch": 0.057462953398752535,
3210
+ "grad_norm": 0.202660471200943,
3211
+ "learning_rate": 1.6333444179559078e-05,
3212
+ "loss": 1.1865,
3213
+ "step": 452
3214
+ },
3215
+ {
3216
+ "epoch": 0.05759008382662588,
3217
+ "grad_norm": 0.19935418665409088,
3218
+ "learning_rate": 1.601738009659849e-05,
3219
+ "loss": 1.2445,
3220
+ "step": 453
3221
+ },
3222
+ {
3223
+ "epoch": 0.05771721425449922,
3224
+ "grad_norm": 0.19397136569023132,
3225
+ "learning_rate": 1.5704137574191203e-05,
3226
+ "loss": 1.2246,
3227
+ "step": 454
3228
+ },
3229
+ {
3230
+ "epoch": 0.057844344682372574,
3231
+ "grad_norm": 0.20033963024616241,
3232
+ "learning_rate": 1.5393727136333035e-05,
3233
+ "loss": 1.2452,
3234
+ "step": 455
3235
+ },
3236
+ {
3237
+ "epoch": 0.05797147511024592,
3238
+ "grad_norm": 0.19725894927978516,
3239
+ "learning_rate": 1.5086159211870442e-05,
3240
+ "loss": 1.1902,
3241
+ "step": 456
3242
+ },
3243
+ {
3244
+ "epoch": 0.05809860553811926,
3245
+ "grad_norm": 0.21174763143062592,
3246
+ "learning_rate": 1.4781444134150047e-05,
3247
+ "loss": 1.1956,
3248
+ "step": 457
3249
+ },
3250
+ {
3251
+ "epoch": 0.05822573596599261,
3252
+ "grad_norm": 0.20643867552280426,
3253
+ "learning_rate": 1.447959214067155e-05,
3254
+ "loss": 1.2708,
3255
+ "step": 458
3256
+ },
3257
+ {
3258
+ "epoch": 0.05835286639386596,
3259
+ "grad_norm": 0.203439399600029,
3260
+ "learning_rate": 1.4180613372743679e-05,
3261
+ "loss": 1.1935,
3262
+ "step": 459
3263
+ },
3264
+ {
3265
+ "epoch": 0.0584799968217393,
3266
+ "grad_norm": 0.2026398777961731,
3267
+ "learning_rate": 1.3884517875143544e-05,
3268
+ "loss": 1.2331,
3269
+ "step": 460
3270
+ },
3271
+ {
3272
+ "epoch": 0.05860712724961265,
3273
+ "grad_norm": 0.20543427765369415,
3274
+ "learning_rate": 1.3591315595779108e-05,
3275
+ "loss": 1.2039,
3276
+ "step": 461
3277
+ },
3278
+ {
3279
+ "epoch": 0.058734257677485996,
3280
+ "grad_norm": 0.2049439400434494,
3281
+ "learning_rate": 1.3301016385355092e-05,
3282
+ "loss": 1.1847,
3283
+ "step": 462
3284
+ },
3285
+ {
3286
+ "epoch": 0.05886138810535934,
3287
+ "grad_norm": 0.20000450313091278,
3288
+ "learning_rate": 1.3013629997041853e-05,
3289
+ "loss": 1.2432,
3290
+ "step": 463
3291
+ },
3292
+ {
3293
+ "epoch": 0.05898851853323269,
3294
+ "grad_norm": 0.20123903453350067,
3295
+ "learning_rate": 1.2729166086147803e-05,
3296
+ "loss": 1.2698,
3297
+ "step": 464
3298
+ },
3299
+ {
3300
+ "epoch": 0.059115648961106035,
3301
+ "grad_norm": 0.20424886047840118,
3302
+ "learning_rate": 1.2447634209795e-05,
3303
+ "loss": 1.2635,
3304
+ "step": 465
3305
+ },
3306
+ {
3307
+ "epoch": 0.05924277938897938,
3308
+ "grad_norm": 0.19165809452533722,
3309
+ "learning_rate": 1.2169043826598058e-05,
3310
+ "loss": 1.1772,
3311
+ "step": 466
3312
+ },
3313
+ {
3314
+ "epoch": 0.05936990981685273,
3315
+ "grad_norm": 0.19973435997962952,
3316
+ "learning_rate": 1.1893404296346423e-05,
3317
+ "loss": 1.2326,
3318
+ "step": 467
3319
+ },
3320
+ {
3321
+ "epoch": 0.059497040244726074,
3322
+ "grad_norm": 0.20723304152488708,
3323
+ "learning_rate": 1.1620724879689792e-05,
3324
+ "loss": 1.2451,
3325
+ "step": 468
3326
+ },
3327
+ {
3328
+ "epoch": 0.05962417067259942,
3329
+ "grad_norm": 0.1965390294790268,
3330
+ "learning_rate": 1.135101473782706e-05,
3331
+ "loss": 1.2154,
3332
+ "step": 469
3333
+ },
3334
+ {
3335
+ "epoch": 0.05975130110047277,
3336
+ "grad_norm": 0.19724096357822418,
3337
+ "learning_rate": 1.1084282932198541e-05,
3338
+ "loss": 1.2092,
3339
+ "step": 470
3340
+ },
3341
+ {
3342
+ "epoch": 0.05987843152834611,
3343
+ "grad_norm": 0.19244475662708282,
3344
+ "learning_rate": 1.0820538424181515e-05,
3345
+ "loss": 1.12,
3346
+ "step": 471
3347
+ },
3348
+ {
3349
+ "epoch": 0.06000556195621946,
3350
+ "grad_norm": 0.20514468848705292,
3351
+ "learning_rate": 1.0559790074789133e-05,
3352
+ "loss": 1.1499,
3353
+ "step": 472
3354
+ },
3355
+ {
3356
+ "epoch": 0.06013269238409281,
3357
+ "grad_norm": 0.19560429453849792,
3358
+ "learning_rate": 1.030204664437271e-05,
3359
+ "loss": 1.2266,
3360
+ "step": 473
3361
+ },
3362
+ {
3363
+ "epoch": 0.06025982281196615,
3364
+ "grad_norm": 0.20317231118679047,
3365
+ "learning_rate": 1.0047316792327499e-05,
3366
+ "loss": 1.1913,
3367
+ "step": 474
3368
+ },
3369
+ {
3370
+ "epoch": 0.060386953239839496,
3371
+ "grad_norm": 0.19489817321300507,
3372
+ "learning_rate": 9.795609076801625e-06,
3373
+ "loss": 1.2461,
3374
+ "step": 475
3375
+ },
3376
+ {
3377
+ "epoch": 0.06051408366771285,
3378
+ "grad_norm": 0.1974310576915741,
3379
+ "learning_rate": 9.546931954408622e-06,
3380
+ "loss": 1.1443,
3381
+ "step": 476
3382
+ },
3383
+ {
3384
+ "epoch": 0.06064121409558619,
3385
+ "grad_norm": 0.19223681092262268,
3386
+ "learning_rate": 9.301293779943321e-06,
3387
+ "loss": 1.1864,
3388
+ "step": 477
3389
+ },
3390
+ {
3391
+ "epoch": 0.060768344523459535,
3392
+ "grad_norm": 0.2029593586921692,
3393
+ "learning_rate": 9.058702806101172e-06,
3394
+ "loss": 1.2081,
3395
+ "step": 478
3396
+ },
3397
+ {
3398
+ "epoch": 0.060895474951332886,
3399
+ "grad_norm": 0.20288948714733124,
3400
+ "learning_rate": 8.819167183200905e-06,
3401
+ "loss": 1.2794,
3402
+ "step": 479
3403
+ },
3404
+ {
3405
+ "epoch": 0.06102260537920623,
3406
+ "grad_norm": 0.20905464887619019,
3407
+ "learning_rate": 8.58269495891081e-06,
3408
+ "loss": 1.2125,
3409
+ "step": 480
3410
+ },
3411
+ {
3412
+ "epoch": 0.061149735807079574,
3413
+ "grad_norm": 0.2005111575126648,
3414
+ "learning_rate": 8.349294077978265e-06,
3415
+ "loss": 1.2183,
3416
+ "step": 481
3417
+ },
3418
+ {
3419
+ "epoch": 0.061276866234952924,
3420
+ "grad_norm": 0.20153559744358063,
3421
+ "learning_rate": 8.118972381962853e-06,
3422
+ "loss": 1.2213,
3423
+ "step": 482
3424
+ },
3425
+ {
3426
+ "epoch": 0.06140399666282627,
3427
+ "grad_norm": 0.20067910850048065,
3428
+ "learning_rate": 7.891737608972927e-06,
3429
+ "loss": 1.1919,
3430
+ "step": 483
3431
+ },
3432
+ {
3433
+ "epoch": 0.06153112709069961,
3434
+ "grad_norm": 0.2007380872964859,
3435
+ "learning_rate": 7.6675973934056e-06,
3436
+ "loss": 1.2182,
3437
+ "step": 484
3438
+ },
3439
+ {
3440
+ "epoch": 0.06165825751857296,
3441
+ "grad_norm": 0.19200630486011505,
3442
+ "learning_rate": 7.4465592656903114e-06,
3443
+ "loss": 1.2089,
3444
+ "step": 485
3445
+ },
3446
+ {
3447
+ "epoch": 0.06178538794644631,
3448
+ "grad_norm": 0.19756072759628296,
3449
+ "learning_rate": 7.228630652035717e-06,
3450
+ "loss": 1.2236,
3451
+ "step": 486
3452
+ },
3453
+ {
3454
+ "epoch": 0.06191251837431965,
3455
+ "grad_norm": 0.20330612361431122,
3456
+ "learning_rate": 7.0138188741803225e-06,
3457
+ "loss": 1.1603,
3458
+ "step": 487
3459
+ },
3460
+ {
3461
+ "epoch": 0.062039648802193,
3462
+ "grad_norm": 0.2018778920173645,
3463
+ "learning_rate": 6.802131149146373e-06,
3464
+ "loss": 1.2256,
3465
+ "step": 488
3466
+ },
3467
+ {
3468
+ "epoch": 0.062166779230066346,
3469
+ "grad_norm": 0.19810867309570312,
3470
+ "learning_rate": 6.59357458899752e-06,
3471
+ "loss": 1.2123,
3472
+ "step": 489
3473
+ },
3474
+ {
3475
+ "epoch": 0.06229390965793969,
3476
+ "grad_norm": 0.19678053259849548,
3477
+ "learning_rate": 6.388156200599726e-06,
3478
+ "loss": 1.2266,
3479
+ "step": 490
3480
+ },
3481
+ {
3482
+ "epoch": 0.06242104008581304,
3483
+ "grad_norm": 0.20404191315174103,
3484
+ "learning_rate": 6.185882885385952e-06,
3485
+ "loss": 1.2376,
3486
+ "step": 491
3487
+ },
3488
+ {
3489
+ "epoch": 0.06254817051368639,
3490
+ "grad_norm": 0.20588378608226776,
3491
+ "learning_rate": 5.986761439124289e-06,
3492
+ "loss": 1.2604,
3493
+ "step": 492
3494
+ },
3495
+ {
3496
+ "epoch": 0.06267530094155974,
3497
+ "grad_norm": 0.19841307401657104,
3498
+ "learning_rate": 5.790798551689592e-06,
3499
+ "loss": 1.2849,
3500
+ "step": 493
3501
+ },
3502
+ {
3503
+ "epoch": 0.06280243136943307,
3504
+ "grad_norm": 0.20967555046081543,
3505
+ "learning_rate": 5.598000806838766e-06,
3506
+ "loss": 1.2321,
3507
+ "step": 494
3508
+ },
3509
+ {
3510
+ "epoch": 0.06292956179730642,
3511
+ "grad_norm": 0.19931279122829437,
3512
+ "learning_rate": 5.408374681989548e-06,
3513
+ "loss": 1.278,
3514
+ "step": 495
3515
+ },
3516
+ {
3517
+ "epoch": 0.06305669222517978,
3518
+ "grad_norm": 0.19611623883247375,
3519
+ "learning_rate": 5.221926548002876e-06,
3520
+ "loss": 1.1999,
3521
+ "step": 496
3522
+ },
3523
+ {
3524
+ "epoch": 0.06318382265305311,
3525
+ "grad_norm": 0.19863781332969666,
3526
+ "learning_rate": 5.038662668968886e-06,
3527
+ "loss": 1.2295,
3528
+ "step": 497
3529
+ },
3530
+ {
3531
+ "epoch": 0.06331095308092646,
3532
+ "grad_norm": 0.19629532098770142,
3533
+ "learning_rate": 4.858589201996433e-06,
3534
+ "loss": 1.2194,
3535
+ "step": 498
3536
+ },
3537
+ {
3538
+ "epoch": 0.06343808350879981,
3539
+ "grad_norm": 0.21103760600090027,
3540
+ "learning_rate": 4.681712197006205e-06,
3541
+ "loss": 1.2861,
3542
+ "step": 499
3543
+ },
3544
+ {
3545
+ "epoch": 0.06356521393667315,
3546
+ "grad_norm": 0.20111264288425446,
3547
+ "learning_rate": 4.508037596527526e-06,
3548
+ "loss": 1.2123,
3549
+ "step": 500
3550
+ },
3551
+ {
3552
+ "epoch": 0.06356521393667315,
3553
+ "eval_loss": 1.22141695022583,
3554
+ "eval_runtime": 1257.3017,
3555
+ "eval_samples_per_second": 3.977,
3556
+ "eval_steps_per_second": 0.994,
3557
+ "step": 500
3558
  }
3559
  ],
3560
  "logging_steps": 1,
 
3583
  "attributes": {}
3584
  }
3585
  },
3586
+ "total_flos": 5.182000113647616e+18,
3587
  "train_batch_size": 4,
3588
  "trial_name": null,
3589
  "trial_params": null