Romain-XV commited on
Commit
0fe2ea3
·
verified ·
1 Parent(s): d03019c

Training in progress, step 400, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a4c219c18214b213cee8d94f449b995fe32c8aa64dc76561b1c68851c62fc101
3
  size 144805440
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:30bed0be07b2d262a7c9c2ee8a0b78c224c223f1dfe6648616e1f608c414714b
3
  size 144805440
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:36ad63dcd673a060cd68ac548d5829ddf424ad566d880bcca00537cdefa09546
3
  size 74292308
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c2c1169ba7d2c7f4cb773678dd77d250d9458b9f604eb63ec725d7237ee35516
3
  size 74292308
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:58b76951fb636bce8b43199b98ae5224c4e9385da07a8a11997d1f9ff34c8cf3
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:557756899814dbd279052b049fe3fe1a6703f1aa93f393d968ec951e02adc041
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b3995ed3f96ce0da04c996d47152b968f30c76db746cafcaa4522fce0739b111
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dfd113e2bf8a699da59a6073bb1bcb18aa32fb9667d59893641ceb623ba2aa2b
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 1.2362135648727417,
3
- "best_model_checkpoint": "miner_id_24/checkpoint-300",
4
- "epoch": 0.03813912836200389,
5
  "eval_steps": 100,
6
- "global_step": 300,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2139,6 +2139,714 @@
2139
  "eval_samples_per_second": 3.977,
2140
  "eval_steps_per_second": 0.994,
2141
  "step": 300
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2142
  }
2143
  ],
2144
  "logging_steps": 1,
@@ -2167,7 +2875,7 @@
2167
  "attributes": {}
2168
  }
2169
  },
2170
- "total_flos": 3.1092000681885696e+18,
2171
  "train_batch_size": 4,
2172
  "trial_name": null,
2173
  "trial_params": null
 
1
  {
2
+ "best_metric": 1.2253398895263672,
3
+ "best_model_checkpoint": "miner_id_24/checkpoint-400",
4
+ "epoch": 0.05085217114933852,
5
  "eval_steps": 100,
6
+ "global_step": 400,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2139
  "eval_samples_per_second": 3.977,
2140
  "eval_steps_per_second": 0.994,
2141
  "step": 300
2142
+ },
2143
+ {
2144
+ "epoch": 0.03826625878987724,
2145
+ "grad_norm": 0.19571375846862793,
2146
+ "learning_rate": 8.843335487049712e-05,
2147
+ "loss": 1.2259,
2148
+ "step": 301
2149
+ },
2150
+ {
2151
+ "epoch": 0.03839338921775059,
2152
+ "grad_norm": 0.19907177984714508,
2153
+ "learning_rate": 8.785781316514841e-05,
2154
+ "loss": 1.1946,
2155
+ "step": 302
2156
+ },
2157
+ {
2158
+ "epoch": 0.03852051964562393,
2159
+ "grad_norm": 0.19650404155254364,
2160
+ "learning_rate": 8.728267940034078e-05,
2161
+ "loss": 1.1977,
2162
+ "step": 303
2163
+ },
2164
+ {
2165
+ "epoch": 0.038647650073497276,
2166
+ "grad_norm": 0.1937037855386734,
2167
+ "learning_rate": 8.670797289881915e-05,
2168
+ "loss": 1.1719,
2169
+ "step": 304
2170
+ },
2171
+ {
2172
+ "epoch": 0.03877478050137063,
2173
+ "grad_norm": 0.2028638869524002,
2174
+ "learning_rate": 8.61337129689737e-05,
2175
+ "loss": 1.224,
2176
+ "step": 305
2177
+ },
2178
+ {
2179
+ "epoch": 0.03890191092924397,
2180
+ "grad_norm": 0.19181466102600098,
2181
+ "learning_rate": 8.555991890419117e-05,
2182
+ "loss": 1.2375,
2183
+ "step": 306
2184
+ },
2185
+ {
2186
+ "epoch": 0.039029041357117315,
2187
+ "grad_norm": 0.1887066513299942,
2188
+ "learning_rate": 8.498660998220669e-05,
2189
+ "loss": 1.1786,
2190
+ "step": 307
2191
+ },
2192
+ {
2193
+ "epoch": 0.039156171784990666,
2194
+ "grad_norm": 0.18820159137248993,
2195
+ "learning_rate": 8.441380546445603e-05,
2196
+ "loss": 1.2536,
2197
+ "step": 308
2198
+ },
2199
+ {
2200
+ "epoch": 0.03928330221286401,
2201
+ "grad_norm": 0.18667809665203094,
2202
+ "learning_rate": 8.384152459542848e-05,
2203
+ "loss": 1.2834,
2204
+ "step": 309
2205
+ },
2206
+ {
2207
+ "epoch": 0.039410432640737354,
2208
+ "grad_norm": 0.19369632005691528,
2209
+ "learning_rate": 8.326978660202034e-05,
2210
+ "loss": 1.2989,
2211
+ "step": 310
2212
+ },
2213
+ {
2214
+ "epoch": 0.039537563068610705,
2215
+ "grad_norm": 0.18864746391773224,
2216
+ "learning_rate": 8.269861069288903e-05,
2217
+ "loss": 1.292,
2218
+ "step": 311
2219
+ },
2220
+ {
2221
+ "epoch": 0.03966469349648405,
2222
+ "grad_norm": 0.19906029105186462,
2223
+ "learning_rate": 8.212801605780753e-05,
2224
+ "loss": 1.2855,
2225
+ "step": 312
2226
+ },
2227
+ {
2228
+ "epoch": 0.03979182392435739,
2229
+ "grad_norm": 0.19700987637043,
2230
+ "learning_rate": 8.155802186701984e-05,
2231
+ "loss": 1.1771,
2232
+ "step": 313
2233
+ },
2234
+ {
2235
+ "epoch": 0.039918954352230744,
2236
+ "grad_norm": 0.20134317874908447,
2237
+ "learning_rate": 8.098864727059685e-05,
2238
+ "loss": 1.1995,
2239
+ "step": 314
2240
+ },
2241
+ {
2242
+ "epoch": 0.04004608478010409,
2243
+ "grad_norm": 0.1883343607187271,
2244
+ "learning_rate": 8.04199113977929e-05,
2245
+ "loss": 1.2433,
2246
+ "step": 315
2247
+ },
2248
+ {
2249
+ "epoch": 0.04017321520797743,
2250
+ "grad_norm": 0.19041708111763,
2251
+ "learning_rate": 7.985183335640331e-05,
2252
+ "loss": 1.2538,
2253
+ "step": 316
2254
+ },
2255
+ {
2256
+ "epoch": 0.04030034563585078,
2257
+ "grad_norm": 0.1838679164648056,
2258
+ "learning_rate": 7.928443223212215e-05,
2259
+ "loss": 1.2025,
2260
+ "step": 317
2261
+ },
2262
+ {
2263
+ "epoch": 0.04042747606372413,
2264
+ "grad_norm": 0.19493237137794495,
2265
+ "learning_rate": 7.871772708790114e-05,
2266
+ "loss": 1.2553,
2267
+ "step": 318
2268
+ },
2269
+ {
2270
+ "epoch": 0.04055460649159747,
2271
+ "grad_norm": 0.197859525680542,
2272
+ "learning_rate": 7.815173696330919e-05,
2273
+ "loss": 1.2661,
2274
+ "step": 319
2275
+ },
2276
+ {
2277
+ "epoch": 0.04068173691947082,
2278
+ "grad_norm": 0.19427183270454407,
2279
+ "learning_rate": 7.758648087389277e-05,
2280
+ "loss": 1.2121,
2281
+ "step": 320
2282
+ },
2283
+ {
2284
+ "epoch": 0.040808867347344166,
2285
+ "grad_norm": 0.19236573576927185,
2286
+ "learning_rate": 7.702197781053696e-05,
2287
+ "loss": 1.2375,
2288
+ "step": 321
2289
+ },
2290
+ {
2291
+ "epoch": 0.04093599777521751,
2292
+ "grad_norm": 0.19856838881969452,
2293
+ "learning_rate": 7.645824673882748e-05,
2294
+ "loss": 1.2648,
2295
+ "step": 322
2296
+ },
2297
+ {
2298
+ "epoch": 0.04106312820309086,
2299
+ "grad_norm": 0.20721471309661865,
2300
+ "learning_rate": 7.589530659841349e-05,
2301
+ "loss": 1.2503,
2302
+ "step": 323
2303
+ },
2304
+ {
2305
+ "epoch": 0.041190258630964205,
2306
+ "grad_norm": 0.19413287937641144,
2307
+ "learning_rate": 7.533317630237117e-05,
2308
+ "loss": 1.265,
2309
+ "step": 324
2310
+ },
2311
+ {
2312
+ "epoch": 0.04131738905883755,
2313
+ "grad_norm": 0.1948065459728241,
2314
+ "learning_rate": 7.477187473656853e-05,
2315
+ "loss": 1.2581,
2316
+ "step": 325
2317
+ },
2318
+ {
2319
+ "epoch": 0.0414445194867109,
2320
+ "grad_norm": 0.19630448520183563,
2321
+ "learning_rate": 7.421142075903067e-05,
2322
+ "loss": 1.2013,
2323
+ "step": 326
2324
+ },
2325
+ {
2326
+ "epoch": 0.041571649914584244,
2327
+ "grad_norm": 0.18867121636867523,
2328
+ "learning_rate": 7.365183319930635e-05,
2329
+ "loss": 1.1628,
2330
+ "step": 327
2331
+ },
2332
+ {
2333
+ "epoch": 0.04169878034245759,
2334
+ "grad_norm": 0.2017098367214203,
2335
+ "learning_rate": 7.309313085783524e-05,
2336
+ "loss": 1.1882,
2337
+ "step": 328
2338
+ },
2339
+ {
2340
+ "epoch": 0.04182591077033094,
2341
+ "grad_norm": 0.19574840366840363,
2342
+ "learning_rate": 7.253533250531656e-05,
2343
+ "loss": 1.1917,
2344
+ "step": 329
2345
+ },
2346
+ {
2347
+ "epoch": 0.04195304119820428,
2348
+ "grad_norm": 0.2003111094236374,
2349
+ "learning_rate": 7.197845688207805e-05,
2350
+ "loss": 1.3069,
2351
+ "step": 330
2352
+ },
2353
+ {
2354
+ "epoch": 0.04208017162607763,
2355
+ "grad_norm": 0.19444699585437775,
2356
+ "learning_rate": 7.142252269744665e-05,
2357
+ "loss": 1.1623,
2358
+ "step": 331
2359
+ },
2360
+ {
2361
+ "epoch": 0.04220730205395098,
2362
+ "grad_norm": 0.19306592643260956,
2363
+ "learning_rate": 7.086754862911982e-05,
2364
+ "loss": 1.2512,
2365
+ "step": 332
2366
+ },
2367
+ {
2368
+ "epoch": 0.04233443248182432,
2369
+ "grad_norm": 0.1940678060054779,
2370
+ "learning_rate": 7.031355332253795e-05,
2371
+ "loss": 1.2404,
2372
+ "step": 333
2373
+ },
2374
+ {
2375
+ "epoch": 0.042461562909697666,
2376
+ "grad_norm": 0.20104342699050903,
2377
+ "learning_rate": 6.976055539025818e-05,
2378
+ "loss": 1.1826,
2379
+ "step": 334
2380
+ },
2381
+ {
2382
+ "epoch": 0.04258869333757102,
2383
+ "grad_norm": 0.20509012043476105,
2384
+ "learning_rate": 6.92085734113288e-05,
2385
+ "loss": 1.2247,
2386
+ "step": 335
2387
+ },
2388
+ {
2389
+ "epoch": 0.04271582376544436,
2390
+ "grad_norm": 0.2038545161485672,
2391
+ "learning_rate": 6.865762593066513e-05,
2392
+ "loss": 1.25,
2393
+ "step": 336
2394
+ },
2395
+ {
2396
+ "epoch": 0.042842954193317705,
2397
+ "grad_norm": 0.20035366714000702,
2398
+ "learning_rate": 6.810773145842653e-05,
2399
+ "loss": 1.2243,
2400
+ "step": 337
2401
+ },
2402
+ {
2403
+ "epoch": 0.042970084621191056,
2404
+ "grad_norm": 0.20092110335826874,
2405
+ "learning_rate": 6.755890846939454e-05,
2406
+ "loss": 1.2279,
2407
+ "step": 338
2408
+ },
2409
+ {
2410
+ "epoch": 0.0430972150490644,
2411
+ "grad_norm": 0.20261281728744507,
2412
+ "learning_rate": 6.701117540235204e-05,
2413
+ "loss": 1.2418,
2414
+ "step": 339
2415
+ },
2416
+ {
2417
+ "epoch": 0.043224345476937744,
2418
+ "grad_norm": 0.20916980504989624,
2419
+ "learning_rate": 6.646455065946386e-05,
2420
+ "loss": 1.2205,
2421
+ "step": 340
2422
+ },
2423
+ {
2424
+ "epoch": 0.043351475904811095,
2425
+ "grad_norm": 0.1868792027235031,
2426
+ "learning_rate": 6.591905260565852e-05,
2427
+ "loss": 1.2149,
2428
+ "step": 341
2429
+ },
2430
+ {
2431
+ "epoch": 0.04347860633268444,
2432
+ "grad_norm": 0.19856908917427063,
2433
+ "learning_rate": 6.537469956801128e-05,
2434
+ "loss": 1.2518,
2435
+ "step": 342
2436
+ },
2437
+ {
2438
+ "epoch": 0.04360573676055778,
2439
+ "grad_norm": 0.19585344195365906,
2440
+ "learning_rate": 6.483150983512823e-05,
2441
+ "loss": 1.2202,
2442
+ "step": 343
2443
+ },
2444
+ {
2445
+ "epoch": 0.04373286718843113,
2446
+ "grad_norm": 0.19705970585346222,
2447
+ "learning_rate": 6.428950165653204e-05,
2448
+ "loss": 1.2701,
2449
+ "step": 344
2450
+ },
2451
+ {
2452
+ "epoch": 0.04385999761630448,
2453
+ "grad_norm": 0.19830965995788574,
2454
+ "learning_rate": 6.374869324204869e-05,
2455
+ "loss": 1.2132,
2456
+ "step": 345
2457
+ },
2458
+ {
2459
+ "epoch": 0.04398712804417782,
2460
+ "grad_norm": 0.20360921323299408,
2461
+ "learning_rate": 6.320910276119576e-05,
2462
+ "loss": 1.1979,
2463
+ "step": 346
2464
+ },
2465
+ {
2466
+ "epoch": 0.04411425847205117,
2467
+ "grad_norm": 0.20261693000793457,
2468
+ "learning_rate": 6.267074834257199e-05,
2469
+ "loss": 1.2231,
2470
+ "step": 347
2471
+ },
2472
+ {
2473
+ "epoch": 0.044241388899924516,
2474
+ "grad_norm": 0.19419489800930023,
2475
+ "learning_rate": 6.213364807324818e-05,
2476
+ "loss": 1.1575,
2477
+ "step": 348
2478
+ },
2479
+ {
2480
+ "epoch": 0.04436851932779786,
2481
+ "grad_norm": 0.2025313675403595,
2482
+ "learning_rate": 6.15978199981595e-05,
2483
+ "loss": 1.2566,
2484
+ "step": 349
2485
+ },
2486
+ {
2487
+ "epoch": 0.04449564975567121,
2488
+ "grad_norm": 0.19754880666732788,
2489
+ "learning_rate": 6.106328211949928e-05,
2490
+ "loss": 1.2821,
2491
+ "step": 350
2492
+ },
2493
+ {
2494
+ "epoch": 0.044622780183544555,
2495
+ "grad_norm": 0.20343464612960815,
2496
+ "learning_rate": 6.053005239611418e-05,
2497
+ "loss": 1.2204,
2498
+ "step": 351
2499
+ },
2500
+ {
2501
+ "epoch": 0.0447499106114179,
2502
+ "grad_norm": 0.20527192950248718,
2503
+ "learning_rate": 5.999814874290084e-05,
2504
+ "loss": 1.2513,
2505
+ "step": 352
2506
+ },
2507
+ {
2508
+ "epoch": 0.04487704103929125,
2509
+ "grad_norm": 0.19321362674236298,
2510
+ "learning_rate": 5.946758903020393e-05,
2511
+ "loss": 1.2466,
2512
+ "step": 353
2513
+ },
2514
+ {
2515
+ "epoch": 0.045004171467164594,
2516
+ "grad_norm": 0.20470896363258362,
2517
+ "learning_rate": 5.893839108321584e-05,
2518
+ "loss": 1.2846,
2519
+ "step": 354
2520
+ },
2521
+ {
2522
+ "epoch": 0.04513130189503794,
2523
+ "grad_norm": 0.19084323942661285,
2524
+ "learning_rate": 5.841057268137771e-05,
2525
+ "loss": 1.2126,
2526
+ "step": 355
2527
+ },
2528
+ {
2529
+ "epoch": 0.04525843232291129,
2530
+ "grad_norm": 0.19587008655071259,
2531
+ "learning_rate": 5.7884151557782305e-05,
2532
+ "loss": 1.1983,
2533
+ "step": 356
2534
+ },
2535
+ {
2536
+ "epoch": 0.04538556275078463,
2537
+ "grad_norm": 0.20390859246253967,
2538
+ "learning_rate": 5.735914539857798e-05,
2539
+ "loss": 1.1981,
2540
+ "step": 357
2541
+ },
2542
+ {
2543
+ "epoch": 0.04551269317865798,
2544
+ "grad_norm": 0.19584935903549194,
2545
+ "learning_rate": 5.68355718423746e-05,
2546
+ "loss": 1.2039,
2547
+ "step": 358
2548
+ },
2549
+ {
2550
+ "epoch": 0.04563982360653133,
2551
+ "grad_norm": 0.19530071318149567,
2552
+ "learning_rate": 5.6313448479650946e-05,
2553
+ "loss": 1.236,
2554
+ "step": 359
2555
+ },
2556
+ {
2557
+ "epoch": 0.04576695403440467,
2558
+ "grad_norm": 0.19659969210624695,
2559
+ "learning_rate": 5.579279285216369e-05,
2560
+ "loss": 1.1936,
2561
+ "step": 360
2562
+ },
2563
+ {
2564
+ "epoch": 0.045894084462278016,
2565
+ "grad_norm": 0.1933298110961914,
2566
+ "learning_rate": 5.527362245235805e-05,
2567
+ "loss": 1.227,
2568
+ "step": 361
2569
+ },
2570
+ {
2571
+ "epoch": 0.04602121489015137,
2572
+ "grad_norm": 0.20280398428440094,
2573
+ "learning_rate": 5.475595472278024e-05,
2574
+ "loss": 1.2644,
2575
+ "step": 362
2576
+ },
2577
+ {
2578
+ "epoch": 0.04614834531802471,
2579
+ "grad_norm": 0.1918189376592636,
2580
+ "learning_rate": 5.4239807055491135e-05,
2581
+ "loss": 1.1495,
2582
+ "step": 363
2583
+ },
2584
+ {
2585
+ "epoch": 0.046275475745898055,
2586
+ "grad_norm": 0.2044762223958969,
2587
+ "learning_rate": 5.372519679148227e-05,
2588
+ "loss": 1.241,
2589
+ "step": 364
2590
+ },
2591
+ {
2592
+ "epoch": 0.046402606173771406,
2593
+ "grad_norm": 0.1972542256116867,
2594
+ "learning_rate": 5.321214122009306e-05,
2595
+ "loss": 1.1419,
2596
+ "step": 365
2597
+ },
2598
+ {
2599
+ "epoch": 0.04652973660164475,
2600
+ "grad_norm": 0.20039339363574982,
2601
+ "learning_rate": 5.270065757843e-05,
2602
+ "loss": 1.2718,
2603
+ "step": 366
2604
+ },
2605
+ {
2606
+ "epoch": 0.046656867029518094,
2607
+ "grad_norm": 0.1938110589981079,
2608
+ "learning_rate": 5.219076305078749e-05,
2609
+ "loss": 1.1947,
2610
+ "step": 367
2611
+ },
2612
+ {
2613
+ "epoch": 0.046783997457391445,
2614
+ "grad_norm": 0.20640990138053894,
2615
+ "learning_rate": 5.168247476807053e-05,
2616
+ "loss": 1.1526,
2617
+ "step": 368
2618
+ },
2619
+ {
2620
+ "epoch": 0.04691112788526479,
2621
+ "grad_norm": 0.198054239153862,
2622
+ "learning_rate": 5.11758098072193e-05,
2623
+ "loss": 1.1965,
2624
+ "step": 369
2625
+ },
2626
+ {
2627
+ "epoch": 0.04703825831313813,
2628
+ "grad_norm": 0.19604484736919403,
2629
+ "learning_rate": 5.067078519063514e-05,
2630
+ "loss": 1.2568,
2631
+ "step": 370
2632
+ },
2633
+ {
2634
+ "epoch": 0.047165388741011484,
2635
+ "grad_norm": 0.2095029056072235,
2636
+ "learning_rate": 5.016741788560889e-05,
2637
+ "loss": 1.2822,
2638
+ "step": 371
2639
+ },
2640
+ {
2641
+ "epoch": 0.04729251916888483,
2642
+ "grad_norm": 0.20356985926628113,
2643
+ "learning_rate": 4.9665724803750756e-05,
2644
+ "loss": 1.1434,
2645
+ "step": 372
2646
+ },
2647
+ {
2648
+ "epoch": 0.04741964959675817,
2649
+ "grad_norm": 0.19989654421806335,
2650
+ "learning_rate": 4.9165722800422096e-05,
2651
+ "loss": 1.2767,
2652
+ "step": 373
2653
+ },
2654
+ {
2655
+ "epoch": 0.04754678002463152,
2656
+ "grad_norm": 0.19582509994506836,
2657
+ "learning_rate": 4.86674286741693e-05,
2658
+ "loss": 1.2693,
2659
+ "step": 374
2660
+ },
2661
+ {
2662
+ "epoch": 0.04767391045250487,
2663
+ "grad_norm": 0.1962389498949051,
2664
+ "learning_rate": 4.8170859166159144e-05,
2665
+ "loss": 1.3266,
2666
+ "step": 375
2667
+ },
2668
+ {
2669
+ "epoch": 0.04780104088037821,
2670
+ "grad_norm": 0.2056453377008438,
2671
+ "learning_rate": 4.7676030959616526e-05,
2672
+ "loss": 1.3004,
2673
+ "step": 376
2674
+ },
2675
+ {
2676
+ "epoch": 0.04792817130825156,
2677
+ "grad_norm": 0.19587452709674835,
2678
+ "learning_rate": 4.71829606792639e-05,
2679
+ "loss": 1.2154,
2680
+ "step": 377
2681
+ },
2682
+ {
2683
+ "epoch": 0.048055301736124906,
2684
+ "grad_norm": 0.19662117958068848,
2685
+ "learning_rate": 4.669166489076283e-05,
2686
+ "loss": 1.2434,
2687
+ "step": 378
2688
+ },
2689
+ {
2690
+ "epoch": 0.04818243216399825,
2691
+ "grad_norm": 0.19508899748325348,
2692
+ "learning_rate": 4.620216010015724e-05,
2693
+ "loss": 1.2319,
2694
+ "step": 379
2695
+ },
2696
+ {
2697
+ "epoch": 0.0483095625918716,
2698
+ "grad_norm": 0.19653861224651337,
2699
+ "learning_rate": 4.571446275331903e-05,
2700
+ "loss": 1.2006,
2701
+ "step": 380
2702
+ },
2703
+ {
2704
+ "epoch": 0.048436693019744945,
2705
+ "grad_norm": 0.1971856951713562,
2706
+ "learning_rate": 4.5228589235395436e-05,
2707
+ "loss": 1.2937,
2708
+ "step": 381
2709
+ },
2710
+ {
2711
+ "epoch": 0.04856382344761829,
2712
+ "grad_norm": 0.2165059596300125,
2713
+ "learning_rate": 4.4744555870258694e-05,
2714
+ "loss": 1.2722,
2715
+ "step": 382
2716
+ },
2717
+ {
2718
+ "epoch": 0.04869095387549164,
2719
+ "grad_norm": 0.20020557940006256,
2720
+ "learning_rate": 4.4262378919957413e-05,
2721
+ "loss": 1.1947,
2722
+ "step": 383
2723
+ },
2724
+ {
2725
+ "epoch": 0.048818084303364984,
2726
+ "grad_norm": 0.19455446302890778,
2727
+ "learning_rate": 4.378207458417035e-05,
2728
+ "loss": 1.1956,
2729
+ "step": 384
2730
+ },
2731
+ {
2732
+ "epoch": 0.04894521473123833,
2733
+ "grad_norm": 0.202660471200943,
2734
+ "learning_rate": 4.3303658999662086e-05,
2735
+ "loss": 1.2553,
2736
+ "step": 385
2737
+ },
2738
+ {
2739
+ "epoch": 0.04907234515911168,
2740
+ "grad_norm": 0.19681531190872192,
2741
+ "learning_rate": 4.282714823974088e-05,
2742
+ "loss": 1.2031,
2743
+ "step": 386
2744
+ },
2745
+ {
2746
+ "epoch": 0.04919947558698502,
2747
+ "grad_norm": 0.20613734424114227,
2748
+ "learning_rate": 4.2352558313718795e-05,
2749
+ "loss": 1.2384,
2750
+ "step": 387
2751
+ },
2752
+ {
2753
+ "epoch": 0.04932660601485837,
2754
+ "grad_norm": 0.1990024596452713,
2755
+ "learning_rate": 4.1879905166373614e-05,
2756
+ "loss": 1.2184,
2757
+ "step": 388
2758
+ },
2759
+ {
2760
+ "epoch": 0.04945373644273172,
2761
+ "grad_norm": 0.21309691667556763,
2762
+ "learning_rate": 4.140920467741325e-05,
2763
+ "loss": 1.1853,
2764
+ "step": 389
2765
+ },
2766
+ {
2767
+ "epoch": 0.04958086687060506,
2768
+ "grad_norm": 0.19488035142421722,
2769
+ "learning_rate": 4.094047266094225e-05,
2770
+ "loss": 1.1804,
2771
+ "step": 390
2772
+ },
2773
+ {
2774
+ "epoch": 0.049707997298478405,
2775
+ "grad_norm": 0.19738849997520447,
2776
+ "learning_rate": 4.047372486493054e-05,
2777
+ "loss": 1.2534,
2778
+ "step": 391
2779
+ },
2780
+ {
2781
+ "epoch": 0.049835127726351756,
2782
+ "grad_norm": 0.20008018612861633,
2783
+ "learning_rate": 4.0008976970684176e-05,
2784
+ "loss": 1.2723,
2785
+ "step": 392
2786
+ },
2787
+ {
2788
+ "epoch": 0.0499622581542251,
2789
+ "grad_norm": 0.19521461427211761,
2790
+ "learning_rate": 3.954624459231866e-05,
2791
+ "loss": 1.1705,
2792
+ "step": 393
2793
+ },
2794
+ {
2795
+ "epoch": 0.050089388582098444,
2796
+ "grad_norm": 0.20466111600399017,
2797
+ "learning_rate": 3.908554327623425e-05,
2798
+ "loss": 1.154,
2799
+ "step": 394
2800
+ },
2801
+ {
2802
+ "epoch": 0.050216519009971795,
2803
+ "grad_norm": 0.2047969251871109,
2804
+ "learning_rate": 3.8626888500593695e-05,
2805
+ "loss": 1.2139,
2806
+ "step": 395
2807
+ },
2808
+ {
2809
+ "epoch": 0.05034364943784514,
2810
+ "grad_norm": 0.1980600655078888,
2811
+ "learning_rate": 3.817029567480228e-05,
2812
+ "loss": 1.279,
2813
+ "step": 396
2814
+ },
2815
+ {
2816
+ "epoch": 0.05047077986571848,
2817
+ "grad_norm": 0.20217813551425934,
2818
+ "learning_rate": 3.771578013898996e-05,
2819
+ "loss": 1.2561,
2820
+ "step": 397
2821
+ },
2822
+ {
2823
+ "epoch": 0.050597910293591834,
2824
+ "grad_norm": 0.1985122561454773,
2825
+ "learning_rate": 3.726335716349612e-05,
2826
+ "loss": 1.2778,
2827
+ "step": 398
2828
+ },
2829
+ {
2830
+ "epoch": 0.05072504072146518,
2831
+ "grad_norm": 0.19889195263385773,
2832
+ "learning_rate": 3.681304194835641e-05,
2833
+ "loss": 1.3225,
2834
+ "step": 399
2835
+ },
2836
+ {
2837
+ "epoch": 0.05085217114933852,
2838
+ "grad_norm": 0.19213935732841492,
2839
+ "learning_rate": 3.6364849622792266e-05,
2840
+ "loss": 1.2308,
2841
+ "step": 400
2842
+ },
2843
+ {
2844
+ "epoch": 0.05085217114933852,
2845
+ "eval_loss": 1.2253398895263672,
2846
+ "eval_runtime": 1257.7786,
2847
+ "eval_samples_per_second": 3.975,
2848
+ "eval_steps_per_second": 0.994,
2849
+ "step": 400
2850
  }
2851
  ],
2852
  "logging_steps": 1,
 
2875
  "attributes": {}
2876
  }
2877
  },
2878
+ "total_flos": 4.145600090918093e+18,
2879
  "train_batch_size": 4,
2880
  "trial_name": null,
2881
  "trial_params": null