jssky commited on
Commit
045c54d
·
verified ·
1 Parent(s): be6d4a4

Training in progress, step 1000, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f1e1a151a5741a3af49bc404c3435bb2c87de0f0975a6c1caef52d07bc4df9bc
3
  size 335604696
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a3a650650762ad6d1017be9f7bd95ea05f6b6a0917941b2a0e535d61b3168829
3
  size 335604696
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e5ad5b608c3afe09851aad5be2f15a0fabc7e6f8e8b50eeb1b0b66f63b50b862
3
  size 170920532
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ce86e3c4e159ad015bd74dd719eb9ddd5b917b8187f6db5fd8613b47e6e01f39
3
  size 170920532
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f984006bb3837e6a89eec0a2e65a93c4eb3466bdfa3832a69232239f8b636824
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:bf0da1d3a2604b7650e9974ff3f4fb732d1e165970e5bd7cd09cad712f5bab99
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6cf13def61641dc944e9edbf416e7eb9f3aaa5a8dc09cbff5b8590b9b4880ce1
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4077036d99500a708f700f75da24d51b5300e184ad35fda49dc5a4df5596cca2
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 0.23512445390224457,
3
- "best_model_checkpoint": "miner_id_24_1/checkpoint-800",
4
- "epoch": 0.40738383195416933,
5
  "eval_steps": 200,
6
- "global_step": 800,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5639,6 +5639,1414 @@
5639
  "eval_samples_per_second": 8.793,
5640
  "eval_steps_per_second": 2.198,
5641
  "step": 800
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5642
  }
5643
  ],
5644
  "logging_steps": 1,
@@ -5662,12 +7070,12 @@
5662
  "should_evaluate": false,
5663
  "should_log": false,
5664
  "should_save": true,
5665
- "should_training_stop": false
5666
  },
5667
  "attributes": {}
5668
  }
5669
  },
5670
- "total_flos": 1.6645191524564337e+18,
5671
  "train_batch_size": 8,
5672
  "trial_name": null,
5673
  "trial_params": null
 
1
  {
2
+ "best_metric": 0.22850316762924194,
3
+ "best_model_checkpoint": "miner_id_24_1/checkpoint-1000",
4
+ "epoch": 0.5092297899427116,
5
  "eval_steps": 200,
6
+ "global_step": 1000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5639
  "eval_samples_per_second": 8.793,
5640
  "eval_steps_per_second": 2.198,
5641
  "step": 800
5642
+ },
5643
+ {
5644
+ "epoch": 0.40789306174411205,
5645
+ "grad_norm": 4.510726451873779,
5646
+ "learning_rate": 9.642615503142926e-06,
5647
+ "loss": 0.7091,
5648
+ "step": 801
5649
+ },
5650
+ {
5651
+ "epoch": 0.4084022915340547,
5652
+ "grad_norm": 4.7646942138671875,
5653
+ "learning_rate": 9.549150281252633e-06,
5654
+ "loss": 0.4744,
5655
+ "step": 802
5656
+ },
5657
+ {
5658
+ "epoch": 0.40891152132399744,
5659
+ "grad_norm": 6.916759014129639,
5660
+ "learning_rate": 9.456092398969902e-06,
5661
+ "loss": 0.6527,
5662
+ "step": 803
5663
+ },
5664
+ {
5665
+ "epoch": 0.40942075111394016,
5666
+ "grad_norm": 4.222986221313477,
5667
+ "learning_rate": 9.363442793386606e-06,
5668
+ "loss": 0.3524,
5669
+ "step": 804
5670
+ },
5671
+ {
5672
+ "epoch": 0.4099299809038829,
5673
+ "grad_norm": 8.524075508117676,
5674
+ "learning_rate": 9.271202397483215e-06,
5675
+ "loss": 0.9119,
5676
+ "step": 805
5677
+ },
5678
+ {
5679
+ "epoch": 0.4104392106938256,
5680
+ "grad_norm": 12.714594841003418,
5681
+ "learning_rate": 9.179372140119525e-06,
5682
+ "loss": 0.4737,
5683
+ "step": 806
5684
+ },
5685
+ {
5686
+ "epoch": 0.4109484404837683,
5687
+ "grad_norm": 8.219633102416992,
5688
+ "learning_rate": 9.087952946025175e-06,
5689
+ "loss": 0.4039,
5690
+ "step": 807
5691
+ },
5692
+ {
5693
+ "epoch": 0.411457670273711,
5694
+ "grad_norm": 11.758675575256348,
5695
+ "learning_rate": 8.996945735790447e-06,
5696
+ "loss": 0.8365,
5697
+ "step": 808
5698
+ },
5699
+ {
5700
+ "epoch": 0.4119669000636537,
5701
+ "grad_norm": 10.59483528137207,
5702
+ "learning_rate": 8.906351425856952e-06,
5703
+ "loss": 1.0241,
5704
+ "step": 809
5705
+ },
5706
+ {
5707
+ "epoch": 0.41247612985359644,
5708
+ "grad_norm": 5.28472375869751,
5709
+ "learning_rate": 8.816170928508365e-06,
5710
+ "loss": 0.5595,
5711
+ "step": 810
5712
+ },
5713
+ {
5714
+ "epoch": 0.41298535964353916,
5715
+ "grad_norm": 8.57630729675293,
5716
+ "learning_rate": 8.7264051518613e-06,
5717
+ "loss": 0.5879,
5718
+ "step": 811
5719
+ },
5720
+ {
5721
+ "epoch": 0.4134945894334819,
5722
+ "grad_norm": 8.637681007385254,
5723
+ "learning_rate": 8.637054999856148e-06,
5724
+ "loss": 0.8988,
5725
+ "step": 812
5726
+ },
5727
+ {
5728
+ "epoch": 0.41400381922342455,
5729
+ "grad_norm": 1.3487462997436523,
5730
+ "learning_rate": 8.548121372247918e-06,
5731
+ "loss": 0.1034,
5732
+ "step": 813
5733
+ },
5734
+ {
5735
+ "epoch": 0.4145130490133673,
5736
+ "grad_norm": 0.9683374762535095,
5737
+ "learning_rate": 8.459605164597267e-06,
5738
+ "loss": 0.0647,
5739
+ "step": 814
5740
+ },
5741
+ {
5742
+ "epoch": 0.41502227880331,
5743
+ "grad_norm": 0.556820273399353,
5744
+ "learning_rate": 8.371507268261437e-06,
5745
+ "loss": 0.0749,
5746
+ "step": 815
5747
+ },
5748
+ {
5749
+ "epoch": 0.4155315085932527,
5750
+ "grad_norm": 2.4960896968841553,
5751
+ "learning_rate": 8.283828570385238e-06,
5752
+ "loss": 0.1691,
5753
+ "step": 816
5754
+ },
5755
+ {
5756
+ "epoch": 0.41604073838319544,
5757
+ "grad_norm": 1.6859462261199951,
5758
+ "learning_rate": 8.196569953892202e-06,
5759
+ "loss": 0.1085,
5760
+ "step": 817
5761
+ },
5762
+ {
5763
+ "epoch": 0.4165499681731381,
5764
+ "grad_norm": 3.0034708976745605,
5765
+ "learning_rate": 8.109732297475635e-06,
5766
+ "loss": 0.0917,
5767
+ "step": 818
5768
+ },
5769
+ {
5770
+ "epoch": 0.41705919796308083,
5771
+ "grad_norm": 1.4022327661514282,
5772
+ "learning_rate": 8.023316475589754e-06,
5773
+ "loss": 0.1208,
5774
+ "step": 819
5775
+ },
5776
+ {
5777
+ "epoch": 0.41756842775302355,
5778
+ "grad_norm": 0.8047292232513428,
5779
+ "learning_rate": 7.937323358440935e-06,
5780
+ "loss": 0.0582,
5781
+ "step": 820
5782
+ },
5783
+ {
5784
+ "epoch": 0.4180776575429663,
5785
+ "grad_norm": 1.763879656791687,
5786
+ "learning_rate": 7.851753811978924e-06,
5787
+ "loss": 0.1686,
5788
+ "step": 821
5789
+ },
5790
+ {
5791
+ "epoch": 0.418586887332909,
5792
+ "grad_norm": 1.504451036453247,
5793
+ "learning_rate": 7.766608697888095e-06,
5794
+ "loss": 0.0718,
5795
+ "step": 822
5796
+ },
5797
+ {
5798
+ "epoch": 0.41909611712285166,
5799
+ "grad_norm": 1.7512840032577515,
5800
+ "learning_rate": 7.681888873578786e-06,
5801
+ "loss": 0.1577,
5802
+ "step": 823
5803
+ },
5804
+ {
5805
+ "epoch": 0.4196053469127944,
5806
+ "grad_norm": 10.731456756591797,
5807
+ "learning_rate": 7.597595192178702e-06,
5808
+ "loss": 0.1255,
5809
+ "step": 824
5810
+ },
5811
+ {
5812
+ "epoch": 0.4201145767027371,
5813
+ "grad_norm": 4.191404819488525,
5814
+ "learning_rate": 7.513728502524286e-06,
5815
+ "loss": 0.1061,
5816
+ "step": 825
5817
+ },
5818
+ {
5819
+ "epoch": 0.42062380649267983,
5820
+ "grad_norm": 6.975319862365723,
5821
+ "learning_rate": 7.430289649152156e-06,
5822
+ "loss": 0.1258,
5823
+ "step": 826
5824
+ },
5825
+ {
5826
+ "epoch": 0.42113303628262255,
5827
+ "grad_norm": 5.663224697113037,
5828
+ "learning_rate": 7.347279472290647e-06,
5829
+ "loss": 0.1082,
5830
+ "step": 827
5831
+ },
5832
+ {
5833
+ "epoch": 0.4216422660725652,
5834
+ "grad_norm": 6.514274597167969,
5835
+ "learning_rate": 7.264698807851328e-06,
5836
+ "loss": 0.1209,
5837
+ "step": 828
5838
+ },
5839
+ {
5840
+ "epoch": 0.42215149586250794,
5841
+ "grad_norm": 5.257199764251709,
5842
+ "learning_rate": 7.182548487420554e-06,
5843
+ "loss": 0.0995,
5844
+ "step": 829
5845
+ },
5846
+ {
5847
+ "epoch": 0.42266072565245066,
5848
+ "grad_norm": 3.9015791416168213,
5849
+ "learning_rate": 7.100829338251147e-06,
5850
+ "loss": 0.1605,
5851
+ "step": 830
5852
+ },
5853
+ {
5854
+ "epoch": 0.4231699554423934,
5855
+ "grad_norm": 5.840038776397705,
5856
+ "learning_rate": 7.019542183254046e-06,
5857
+ "loss": 0.1126,
5858
+ "step": 831
5859
+ },
5860
+ {
5861
+ "epoch": 0.4236791852323361,
5862
+ "grad_norm": 11.773760795593262,
5863
+ "learning_rate": 6.9386878409899715e-06,
5864
+ "loss": 0.1449,
5865
+ "step": 832
5866
+ },
5867
+ {
5868
+ "epoch": 0.42418841502227883,
5869
+ "grad_norm": 6.619400978088379,
5870
+ "learning_rate": 6.858267125661272e-06,
5871
+ "loss": 0.1207,
5872
+ "step": 833
5873
+ },
5874
+ {
5875
+ "epoch": 0.4246976448122215,
5876
+ "grad_norm": 5.580018520355225,
5877
+ "learning_rate": 6.778280847103669e-06,
5878
+ "loss": 0.0902,
5879
+ "step": 834
5880
+ },
5881
+ {
5882
+ "epoch": 0.4252068746021642,
5883
+ "grad_norm": 5.762646675109863,
5884
+ "learning_rate": 6.698729810778065e-06,
5885
+ "loss": 0.0773,
5886
+ "step": 835
5887
+ },
5888
+ {
5889
+ "epoch": 0.42571610439210694,
5890
+ "grad_norm": 5.908243179321289,
5891
+ "learning_rate": 6.619614817762537e-06,
5892
+ "loss": 0.0891,
5893
+ "step": 836
5894
+ },
5895
+ {
5896
+ "epoch": 0.42622533418204966,
5897
+ "grad_norm": 4.759620666503906,
5898
+ "learning_rate": 6.540936664744196e-06,
5899
+ "loss": 0.092,
5900
+ "step": 837
5901
+ },
5902
+ {
5903
+ "epoch": 0.4267345639719924,
5904
+ "grad_norm": 3.2303318977355957,
5905
+ "learning_rate": 6.462696144011149e-06,
5906
+ "loss": 0.0409,
5907
+ "step": 838
5908
+ },
5909
+ {
5910
+ "epoch": 0.42724379376193505,
5911
+ "grad_norm": 4.1941986083984375,
5912
+ "learning_rate": 6.384894043444567e-06,
5913
+ "loss": 0.1015,
5914
+ "step": 839
5915
+ },
5916
+ {
5917
+ "epoch": 0.4277530235518778,
5918
+ "grad_norm": 2.3727965354919434,
5919
+ "learning_rate": 6.3075311465107535e-06,
5920
+ "loss": 0.0168,
5921
+ "step": 840
5922
+ },
5923
+ {
5924
+ "epoch": 0.4282622533418205,
5925
+ "grad_norm": 6.094393730163574,
5926
+ "learning_rate": 6.230608232253227e-06,
5927
+ "loss": 0.098,
5928
+ "step": 841
5929
+ },
5930
+ {
5931
+ "epoch": 0.4287714831317632,
5932
+ "grad_norm": 6.916983127593994,
5933
+ "learning_rate": 6.154126075284855e-06,
5934
+ "loss": 0.0278,
5935
+ "step": 842
5936
+ },
5937
+ {
5938
+ "epoch": 0.42928071292170594,
5939
+ "grad_norm": 1.7201404571533203,
5940
+ "learning_rate": 6.078085445780129e-06,
5941
+ "loss": 0.0032,
5942
+ "step": 843
5943
+ },
5944
+ {
5945
+ "epoch": 0.4297899427116486,
5946
+ "grad_norm": 9.973702430725098,
5947
+ "learning_rate": 6.002487109467347e-06,
5948
+ "loss": 0.0374,
5949
+ "step": 844
5950
+ },
5951
+ {
5952
+ "epoch": 0.43029917250159133,
5953
+ "grad_norm": 1.6437783241271973,
5954
+ "learning_rate": 5.927331827620903e-06,
5955
+ "loss": 0.0081,
5956
+ "step": 845
5957
+ },
5958
+ {
5959
+ "epoch": 0.43080840229153405,
5960
+ "grad_norm": 4.856413841247559,
5961
+ "learning_rate": 5.852620357053651e-06,
5962
+ "loss": 0.0392,
5963
+ "step": 846
5964
+ },
5965
+ {
5966
+ "epoch": 0.4313176320814768,
5967
+ "grad_norm": 5.264596939086914,
5968
+ "learning_rate": 5.778353450109286e-06,
5969
+ "loss": 0.0289,
5970
+ "step": 847
5971
+ },
5972
+ {
5973
+ "epoch": 0.4318268618714195,
5974
+ "grad_norm": 4.01646089553833,
5975
+ "learning_rate": 5.704531854654721e-06,
5976
+ "loss": 0.0063,
5977
+ "step": 848
5978
+ },
5979
+ {
5980
+ "epoch": 0.43233609166136217,
5981
+ "grad_norm": 5.703643798828125,
5982
+ "learning_rate": 5.631156314072605e-06,
5983
+ "loss": 0.0557,
5984
+ "step": 849
5985
+ },
5986
+ {
5987
+ "epoch": 0.4328453214513049,
5988
+ "grad_norm": 9.367152214050293,
5989
+ "learning_rate": 5.558227567253832e-06,
5990
+ "loss": 0.1552,
5991
+ "step": 850
5992
+ },
5993
+ {
5994
+ "epoch": 0.4333545512412476,
5995
+ "grad_norm": 4.262320518493652,
5996
+ "learning_rate": 5.485746348590048e-06,
5997
+ "loss": 0.6515,
5998
+ "step": 851
5999
+ },
6000
+ {
6001
+ "epoch": 0.43386378103119033,
6002
+ "grad_norm": 5.231907367706299,
6003
+ "learning_rate": 5.413713387966329e-06,
6004
+ "loss": 0.5992,
6005
+ "step": 852
6006
+ },
6007
+ {
6008
+ "epoch": 0.43437301082113305,
6009
+ "grad_norm": 4.903708457946777,
6010
+ "learning_rate": 5.34212941075381e-06,
6011
+ "loss": 0.3601,
6012
+ "step": 853
6013
+ },
6014
+ {
6015
+ "epoch": 0.4348822406110757,
6016
+ "grad_norm": 6.984781742095947,
6017
+ "learning_rate": 5.270995137802315e-06,
6018
+ "loss": 0.5169,
6019
+ "step": 854
6020
+ },
6021
+ {
6022
+ "epoch": 0.43539147040101844,
6023
+ "grad_norm": 7.836650371551514,
6024
+ "learning_rate": 5.200311285433213e-06,
6025
+ "loss": 0.6677,
6026
+ "step": 855
6027
+ },
6028
+ {
6029
+ "epoch": 0.43590070019096117,
6030
+ "grad_norm": 5.570544719696045,
6031
+ "learning_rate": 5.13007856543209e-06,
6032
+ "loss": 0.3495,
6033
+ "step": 856
6034
+ },
6035
+ {
6036
+ "epoch": 0.4364099299809039,
6037
+ "grad_norm": 21.38435935974121,
6038
+ "learning_rate": 5.060297685041659e-06,
6039
+ "loss": 1.0934,
6040
+ "step": 857
6041
+ },
6042
+ {
6043
+ "epoch": 0.4369191597708466,
6044
+ "grad_norm": 11.60948371887207,
6045
+ "learning_rate": 4.99096934695461e-06,
6046
+ "loss": 0.8771,
6047
+ "step": 858
6048
+ },
6049
+ {
6050
+ "epoch": 0.43742838956078933,
6051
+ "grad_norm": 11.168967247009277,
6052
+ "learning_rate": 4.922094249306558e-06,
6053
+ "loss": 0.822,
6054
+ "step": 859
6055
+ },
6056
+ {
6057
+ "epoch": 0.437937619350732,
6058
+ "grad_norm": 9.118983268737793,
6059
+ "learning_rate": 4.853673085668947e-06,
6060
+ "loss": 0.7252,
6061
+ "step": 860
6062
+ },
6063
+ {
6064
+ "epoch": 0.4384468491406747,
6065
+ "grad_norm": 8.641736030578613,
6066
+ "learning_rate": 4.78570654504214e-06,
6067
+ "loss": 0.8113,
6068
+ "step": 861
6069
+ },
6070
+ {
6071
+ "epoch": 0.43895607893061744,
6072
+ "grad_norm": 7.092012882232666,
6073
+ "learning_rate": 4.7181953118484556e-06,
6074
+ "loss": 0.6584,
6075
+ "step": 862
6076
+ },
6077
+ {
6078
+ "epoch": 0.43946530872056017,
6079
+ "grad_norm": 1.0570333003997803,
6080
+ "learning_rate": 4.651140065925269e-06,
6081
+ "loss": 0.1191,
6082
+ "step": 863
6083
+ },
6084
+ {
6085
+ "epoch": 0.4399745385105029,
6086
+ "grad_norm": 2.1120429039001465,
6087
+ "learning_rate": 4.58454148251814e-06,
6088
+ "loss": 0.1825,
6089
+ "step": 864
6090
+ },
6091
+ {
6092
+ "epoch": 0.44048376830044556,
6093
+ "grad_norm": 0.5101509094238281,
6094
+ "learning_rate": 4.5184002322740785e-06,
6095
+ "loss": 0.0776,
6096
+ "step": 865
6097
+ },
6098
+ {
6099
+ "epoch": 0.4409929980903883,
6100
+ "grad_norm": 1.4004946947097778,
6101
+ "learning_rate": 4.452716981234744e-06,
6102
+ "loss": 0.1078,
6103
+ "step": 866
6104
+ },
6105
+ {
6106
+ "epoch": 0.441502227880331,
6107
+ "grad_norm": 1.1376584768295288,
6108
+ "learning_rate": 4.387492390829734e-06,
6109
+ "loss": 0.0968,
6110
+ "step": 867
6111
+ },
6112
+ {
6113
+ "epoch": 0.4420114576702737,
6114
+ "grad_norm": 1.968505620956421,
6115
+ "learning_rate": 4.322727117869951e-06,
6116
+ "loss": 0.1204,
6117
+ "step": 868
6118
+ },
6119
+ {
6120
+ "epoch": 0.44252068746021644,
6121
+ "grad_norm": 0.5514800548553467,
6122
+ "learning_rate": 4.258421814540992e-06,
6123
+ "loss": 0.0586,
6124
+ "step": 869
6125
+ },
6126
+ {
6127
+ "epoch": 0.4430299172501591,
6128
+ "grad_norm": 2.0910208225250244,
6129
+ "learning_rate": 4.19457712839652e-06,
6130
+ "loss": 0.1634,
6131
+ "step": 870
6132
+ },
6133
+ {
6134
+ "epoch": 0.44353914704010183,
6135
+ "grad_norm": 3.2385759353637695,
6136
+ "learning_rate": 4.131193702351827e-06,
6137
+ "loss": 0.1482,
6138
+ "step": 871
6139
+ },
6140
+ {
6141
+ "epoch": 0.44404837683004456,
6142
+ "grad_norm": 1.8257766962051392,
6143
+ "learning_rate": 4.068272174677335e-06,
6144
+ "loss": 0.1311,
6145
+ "step": 872
6146
+ },
6147
+ {
6148
+ "epoch": 0.4445576066199873,
6149
+ "grad_norm": 1.4228204488754272,
6150
+ "learning_rate": 4.005813178992091e-06,
6151
+ "loss": 0.0839,
6152
+ "step": 873
6153
+ },
6154
+ {
6155
+ "epoch": 0.44506683640993,
6156
+ "grad_norm": 14.156405448913574,
6157
+ "learning_rate": 3.9438173442575e-06,
6158
+ "loss": 0.1061,
6159
+ "step": 874
6160
+ },
6161
+ {
6162
+ "epoch": 0.44557606619987267,
6163
+ "grad_norm": 7.2103047370910645,
6164
+ "learning_rate": 3.8822852947709375e-06,
6165
+ "loss": 0.1517,
6166
+ "step": 875
6167
+ },
6168
+ {
6169
+ "epoch": 0.4460852959898154,
6170
+ "grad_norm": 4.403718948364258,
6171
+ "learning_rate": 3.821217650159453e-06,
6172
+ "loss": 0.1108,
6173
+ "step": 876
6174
+ },
6175
+ {
6176
+ "epoch": 0.4465945257797581,
6177
+ "grad_norm": 4.354316711425781,
6178
+ "learning_rate": 3.760615025373543e-06,
6179
+ "loss": 0.1314,
6180
+ "step": 877
6181
+ },
6182
+ {
6183
+ "epoch": 0.44710375556970083,
6184
+ "grad_norm": 3.967412233352661,
6185
+ "learning_rate": 3.700478030680987e-06,
6186
+ "loss": 0.1001,
6187
+ "step": 878
6188
+ },
6189
+ {
6190
+ "epoch": 0.44761298535964356,
6191
+ "grad_norm": 4.008363246917725,
6192
+ "learning_rate": 3.6408072716606346e-06,
6193
+ "loss": 0.0968,
6194
+ "step": 879
6195
+ },
6196
+ {
6197
+ "epoch": 0.4481222151495863,
6198
+ "grad_norm": 6.099944114685059,
6199
+ "learning_rate": 3.581603349196372e-06,
6200
+ "loss": 0.1582,
6201
+ "step": 880
6202
+ },
6203
+ {
6204
+ "epoch": 0.44863144493952894,
6205
+ "grad_norm": 5.96859073638916,
6206
+ "learning_rate": 3.522866859471047e-06,
6207
+ "loss": 0.1445,
6208
+ "step": 881
6209
+ },
6210
+ {
6211
+ "epoch": 0.44914067472947167,
6212
+ "grad_norm": 3.3854691982269287,
6213
+ "learning_rate": 3.4645983939604496e-06,
6214
+ "loss": 0.0567,
6215
+ "step": 882
6216
+ },
6217
+ {
6218
+ "epoch": 0.4496499045194144,
6219
+ "grad_norm": 3.6964199542999268,
6220
+ "learning_rate": 3.406798539427386e-06,
6221
+ "loss": 0.1331,
6222
+ "step": 883
6223
+ },
6224
+ {
6225
+ "epoch": 0.4501591343093571,
6226
+ "grad_norm": 3.9392178058624268,
6227
+ "learning_rate": 3.349467877915746e-06,
6228
+ "loss": 0.1401,
6229
+ "step": 884
6230
+ },
6231
+ {
6232
+ "epoch": 0.45066836409929983,
6233
+ "grad_norm": 8.413680076599121,
6234
+ "learning_rate": 3.2926069867446675e-06,
6235
+ "loss": 0.0784,
6236
+ "step": 885
6237
+ },
6238
+ {
6239
+ "epoch": 0.4511775938892425,
6240
+ "grad_norm": 3.3428969383239746,
6241
+ "learning_rate": 3.2362164385026706e-06,
6242
+ "loss": 0.1658,
6243
+ "step": 886
6244
+ },
6245
+ {
6246
+ "epoch": 0.4516868236791852,
6247
+ "grad_norm": 4.6566386222839355,
6248
+ "learning_rate": 3.180296801041971e-06,
6249
+ "loss": 0.1105,
6250
+ "step": 887
6251
+ },
6252
+ {
6253
+ "epoch": 0.45219605346912795,
6254
+ "grad_norm": 4.742708683013916,
6255
+ "learning_rate": 3.1248486374726883e-06,
6256
+ "loss": 0.0988,
6257
+ "step": 888
6258
+ },
6259
+ {
6260
+ "epoch": 0.45270528325907067,
6261
+ "grad_norm": 5.364091873168945,
6262
+ "learning_rate": 3.069872506157212e-06,
6263
+ "loss": 0.0267,
6264
+ "step": 889
6265
+ },
6266
+ {
6267
+ "epoch": 0.4532145130490134,
6268
+ "grad_norm": 7.658147811889648,
6269
+ "learning_rate": 3.0153689607045845e-06,
6270
+ "loss": 0.1993,
6271
+ "step": 890
6272
+ },
6273
+ {
6274
+ "epoch": 0.45372374283895606,
6275
+ "grad_norm": 5.430888652801514,
6276
+ "learning_rate": 2.961338549964893e-06,
6277
+ "loss": 0.0843,
6278
+ "step": 891
6279
+ },
6280
+ {
6281
+ "epoch": 0.4542329726288988,
6282
+ "grad_norm": 4.619664669036865,
6283
+ "learning_rate": 2.9077818180237693e-06,
6284
+ "loss": 0.0777,
6285
+ "step": 892
6286
+ },
6287
+ {
6288
+ "epoch": 0.4547422024188415,
6289
+ "grad_norm": 0.4149484932422638,
6290
+ "learning_rate": 2.8546993041969173e-06,
6291
+ "loss": 0.0021,
6292
+ "step": 893
6293
+ },
6294
+ {
6295
+ "epoch": 0.4552514322087842,
6296
+ "grad_norm": 3.0641720294952393,
6297
+ "learning_rate": 2.802091543024671e-06,
6298
+ "loss": 0.0088,
6299
+ "step": 894
6300
+ },
6301
+ {
6302
+ "epoch": 0.45576066199872695,
6303
+ "grad_norm": 3.299743175506592,
6304
+ "learning_rate": 2.7499590642665774e-06,
6305
+ "loss": 0.0406,
6306
+ "step": 895
6307
+ },
6308
+ {
6309
+ "epoch": 0.4562698917886696,
6310
+ "grad_norm": 5.375297546386719,
6311
+ "learning_rate": 2.6983023928961404e-06,
6312
+ "loss": 0.0383,
6313
+ "step": 896
6314
+ },
6315
+ {
6316
+ "epoch": 0.45677912157861233,
6317
+ "grad_norm": 1.769721508026123,
6318
+ "learning_rate": 2.647122049095463e-06,
6319
+ "loss": 0.0077,
6320
+ "step": 897
6321
+ },
6322
+ {
6323
+ "epoch": 0.45728835136855506,
6324
+ "grad_norm": 7.771859645843506,
6325
+ "learning_rate": 2.596418548250029e-06,
6326
+ "loss": 0.0876,
6327
+ "step": 898
6328
+ },
6329
+ {
6330
+ "epoch": 0.4577975811584978,
6331
+ "grad_norm": 5.935695171356201,
6332
+ "learning_rate": 2.546192400943537e-06,
6333
+ "loss": 0.0387,
6334
+ "step": 899
6335
+ },
6336
+ {
6337
+ "epoch": 0.4583068109484405,
6338
+ "grad_norm": 5.693915367126465,
6339
+ "learning_rate": 2.496444112952734e-06,
6340
+ "loss": 0.1489,
6341
+ "step": 900
6342
+ },
6343
+ {
6344
+ "epoch": 0.45881604073838317,
6345
+ "grad_norm": 3.7777862548828125,
6346
+ "learning_rate": 2.4471741852423237e-06,
6347
+ "loss": 0.6961,
6348
+ "step": 901
6349
+ },
6350
+ {
6351
+ "epoch": 0.4593252705283259,
6352
+ "grad_norm": 5.661333084106445,
6353
+ "learning_rate": 2.3983831139599287e-06,
6354
+ "loss": 0.6676,
6355
+ "step": 902
6356
+ },
6357
+ {
6358
+ "epoch": 0.4598345003182686,
6359
+ "grad_norm": 3.3415160179138184,
6360
+ "learning_rate": 2.3500713904311024e-06,
6361
+ "loss": 0.1848,
6362
+ "step": 903
6363
+ },
6364
+ {
6365
+ "epoch": 0.46034373010821134,
6366
+ "grad_norm": 9.008618354797363,
6367
+ "learning_rate": 2.3022395011543686e-06,
6368
+ "loss": 0.8188,
6369
+ "step": 904
6370
+ },
6371
+ {
6372
+ "epoch": 0.46085295989815406,
6373
+ "grad_norm": 6.555294036865234,
6374
+ "learning_rate": 2.2548879277963064e-06,
6375
+ "loss": 0.5172,
6376
+ "step": 905
6377
+ },
6378
+ {
6379
+ "epoch": 0.4613621896880968,
6380
+ "grad_norm": 15.021227836608887,
6381
+ "learning_rate": 2.208017147186736e-06,
6382
+ "loss": 0.6723,
6383
+ "step": 906
6384
+ },
6385
+ {
6386
+ "epoch": 0.46187141947803945,
6387
+ "grad_norm": 9.838711738586426,
6388
+ "learning_rate": 2.161627631313923e-06,
6389
+ "loss": 0.7112,
6390
+ "step": 907
6391
+ },
6392
+ {
6393
+ "epoch": 0.46238064926798217,
6394
+ "grad_norm": 12.633716583251953,
6395
+ "learning_rate": 2.1157198473197414e-06,
6396
+ "loss": 0.9927,
6397
+ "step": 908
6398
+ },
6399
+ {
6400
+ "epoch": 0.4628898790579249,
6401
+ "grad_norm": 7.977221488952637,
6402
+ "learning_rate": 2.070294257495081e-06,
6403
+ "loss": 0.558,
6404
+ "step": 909
6405
+ },
6406
+ {
6407
+ "epoch": 0.4633991088478676,
6408
+ "grad_norm": 9.081966400146484,
6409
+ "learning_rate": 2.0253513192751373e-06,
6410
+ "loss": 0.5821,
6411
+ "step": 910
6412
+ },
6413
+ {
6414
+ "epoch": 0.46390833863781034,
6415
+ "grad_norm": 8.361538887023926,
6416
+ "learning_rate": 1.9808914852347813e-06,
6417
+ "loss": 0.9417,
6418
+ "step": 911
6419
+ },
6420
+ {
6421
+ "epoch": 0.464417568427753,
6422
+ "grad_norm": 2.8661348819732666,
6423
+ "learning_rate": 1.9369152030840556e-06,
6424
+ "loss": 0.3311,
6425
+ "step": 912
6426
+ },
6427
+ {
6428
+ "epoch": 0.4649267982176957,
6429
+ "grad_norm": 1.429822564125061,
6430
+ "learning_rate": 1.8934229156636452e-06,
6431
+ "loss": 0.1388,
6432
+ "step": 913
6433
+ },
6434
+ {
6435
+ "epoch": 0.46543602800763845,
6436
+ "grad_norm": 1.2748867273330688,
6437
+ "learning_rate": 1.8504150609403858e-06,
6438
+ "loss": 0.1259,
6439
+ "step": 914
6440
+ },
6441
+ {
6442
+ "epoch": 0.46594525779758117,
6443
+ "grad_norm": 0.8820096850395203,
6444
+ "learning_rate": 1.807892072002898e-06,
6445
+ "loss": 0.0854,
6446
+ "step": 915
6447
+ },
6448
+ {
6449
+ "epoch": 0.4664544875875239,
6450
+ "grad_norm": 2.467775344848633,
6451
+ "learning_rate": 1.7658543770572189e-06,
6452
+ "loss": 0.0945,
6453
+ "step": 916
6454
+ },
6455
+ {
6456
+ "epoch": 0.46696371737746656,
6457
+ "grad_norm": 4.9203877449035645,
6458
+ "learning_rate": 1.724302399422456e-06,
6459
+ "loss": 0.1121,
6460
+ "step": 917
6461
+ },
6462
+ {
6463
+ "epoch": 0.4674729471674093,
6464
+ "grad_norm": 0.4738912284374237,
6465
+ "learning_rate": 1.6832365575265741e-06,
6466
+ "loss": 0.0745,
6467
+ "step": 918
6468
+ },
6469
+ {
6470
+ "epoch": 0.467982176957352,
6471
+ "grad_norm": 1.508836269378662,
6472
+ "learning_rate": 1.6426572649021476e-06,
6473
+ "loss": 0.1326,
6474
+ "step": 919
6475
+ },
6476
+ {
6477
+ "epoch": 0.4684914067472947,
6478
+ "grad_norm": 1.2223467826843262,
6479
+ "learning_rate": 1.6025649301821876e-06,
6480
+ "loss": 0.1413,
6481
+ "step": 920
6482
+ },
6483
+ {
6484
+ "epoch": 0.46900063653723745,
6485
+ "grad_norm": 0.6743190288543701,
6486
+ "learning_rate": 1.5629599570960718e-06,
6487
+ "loss": 0.0968,
6488
+ "step": 921
6489
+ },
6490
+ {
6491
+ "epoch": 0.4695098663271801,
6492
+ "grad_norm": 1.4873098134994507,
6493
+ "learning_rate": 1.523842744465437e-06,
6494
+ "loss": 0.102,
6495
+ "step": 922
6496
+ },
6497
+ {
6498
+ "epoch": 0.47001909611712284,
6499
+ "grad_norm": 1.1552408933639526,
6500
+ "learning_rate": 1.4852136862001764e-06,
6501
+ "loss": 0.0608,
6502
+ "step": 923
6503
+ },
6504
+ {
6505
+ "epoch": 0.47052832590706556,
6506
+ "grad_norm": 5.109307289123535,
6507
+ "learning_rate": 1.4470731712944884e-06,
6508
+ "loss": 0.0851,
6509
+ "step": 924
6510
+ },
6511
+ {
6512
+ "epoch": 0.4710375556970083,
6513
+ "grad_norm": 4.766353130340576,
6514
+ "learning_rate": 1.4094215838229176e-06,
6515
+ "loss": 0.1149,
6516
+ "step": 925
6517
+ },
6518
+ {
6519
+ "epoch": 0.471546785486951,
6520
+ "grad_norm": 14.194299697875977,
6521
+ "learning_rate": 1.372259302936546e-06,
6522
+ "loss": 0.2078,
6523
+ "step": 926
6524
+ },
6525
+ {
6526
+ "epoch": 0.4720560152768937,
6527
+ "grad_norm": 4.660562038421631,
6528
+ "learning_rate": 1.3355867028591208e-06,
6529
+ "loss": 0.0858,
6530
+ "step": 927
6531
+ },
6532
+ {
6533
+ "epoch": 0.4725652450668364,
6534
+ "grad_norm": 10.358325004577637,
6535
+ "learning_rate": 1.2994041528833266e-06,
6536
+ "loss": 0.0983,
6537
+ "step": 928
6538
+ },
6539
+ {
6540
+ "epoch": 0.4730744748567791,
6541
+ "grad_norm": 6.56409215927124,
6542
+ "learning_rate": 1.2637120173670358e-06,
6543
+ "loss": 0.0809,
6544
+ "step": 929
6545
+ },
6546
+ {
6547
+ "epoch": 0.47358370464672184,
6548
+ "grad_norm": 4.377633094787598,
6549
+ "learning_rate": 1.2285106557296477e-06,
6550
+ "loss": 0.094,
6551
+ "step": 930
6552
+ },
6553
+ {
6554
+ "epoch": 0.47409293443666456,
6555
+ "grad_norm": 5.809483051300049,
6556
+ "learning_rate": 1.1938004224484988e-06,
6557
+ "loss": 0.1196,
6558
+ "step": 931
6559
+ },
6560
+ {
6561
+ "epoch": 0.4746021642266073,
6562
+ "grad_norm": 3.2537131309509277,
6563
+ "learning_rate": 1.1595816670552428e-06,
6564
+ "loss": 0.1031,
6565
+ "step": 932
6566
+ },
6567
+ {
6568
+ "epoch": 0.47511139401654995,
6569
+ "grad_norm": 6.928438186645508,
6570
+ "learning_rate": 1.1258547341323699e-06,
6571
+ "loss": 0.068,
6572
+ "step": 933
6573
+ },
6574
+ {
6575
+ "epoch": 0.47562062380649267,
6576
+ "grad_norm": 3.240041971206665,
6577
+ "learning_rate": 1.0926199633097157e-06,
6578
+ "loss": 0.0739,
6579
+ "step": 934
6580
+ },
6581
+ {
6582
+ "epoch": 0.4761298535964354,
6583
+ "grad_norm": 6.833902835845947,
6584
+ "learning_rate": 1.0598776892610685e-06,
6585
+ "loss": 0.0857,
6586
+ "step": 935
6587
+ },
6588
+ {
6589
+ "epoch": 0.4766390833863781,
6590
+ "grad_norm": 5.259301662445068,
6591
+ "learning_rate": 1.02762824170074e-06,
6592
+ "loss": 0.1534,
6593
+ "step": 936
6594
+ },
6595
+ {
6596
+ "epoch": 0.47714831317632084,
6597
+ "grad_norm": 11.154175758361816,
6598
+ "learning_rate": 9.958719453803278e-07,
6599
+ "loss": 0.1273,
6600
+ "step": 937
6601
+ },
6602
+ {
6603
+ "epoch": 0.4776575429662635,
6604
+ "grad_norm": 2.975895404815674,
6605
+ "learning_rate": 9.646091200853802e-07,
6606
+ "loss": 0.015,
6607
+ "step": 938
6608
+ },
6609
+ {
6610
+ "epoch": 0.4781667727562062,
6611
+ "grad_norm": 3.766637086868286,
6612
+ "learning_rate": 9.338400806321978e-07,
6613
+ "loss": 0.0202,
6614
+ "step": 939
6615
+ },
6616
+ {
6617
+ "epoch": 0.47867600254614895,
6618
+ "grad_norm": 2.1836998462677,
6619
+ "learning_rate": 9.035651368646648e-07,
6620
+ "loss": 0.0426,
6621
+ "step": 940
6622
+ },
6623
+ {
6624
+ "epoch": 0.47918523233609167,
6625
+ "grad_norm": 3.746504306793213,
6626
+ "learning_rate": 8.737845936511335e-07,
6627
+ "loss": 0.0458,
6628
+ "step": 941
6629
+ },
6630
+ {
6631
+ "epoch": 0.4796944621260344,
6632
+ "grad_norm": 4.881604194641113,
6633
+ "learning_rate": 8.444987508813451e-07,
6634
+ "loss": 0.0482,
6635
+ "step": 942
6636
+ },
6637
+ {
6638
+ "epoch": 0.48020369191597706,
6639
+ "grad_norm": 15.250972747802734,
6640
+ "learning_rate": 8.157079034633974e-07,
6641
+ "loss": 0.0486,
6642
+ "step": 943
6643
+ },
6644
+ {
6645
+ "epoch": 0.4807129217059198,
6646
+ "grad_norm": 4.671970844268799,
6647
+ "learning_rate": 7.874123413208145e-07,
6648
+ "loss": 0.0408,
6649
+ "step": 944
6650
+ },
6651
+ {
6652
+ "epoch": 0.4812221514958625,
6653
+ "grad_norm": 3.882068157196045,
6654
+ "learning_rate": 7.596123493895991e-07,
6655
+ "loss": 0.0702,
6656
+ "step": 945
6657
+ },
6658
+ {
6659
+ "epoch": 0.4817313812858052,
6660
+ "grad_norm": 3.0033390522003174,
6661
+ "learning_rate": 7.323082076153509e-07,
6662
+ "loss": 0.0722,
6663
+ "step": 946
6664
+ },
6665
+ {
6666
+ "epoch": 0.48224061107574795,
6667
+ "grad_norm": 16.160083770751953,
6668
+ "learning_rate": 7.055001909504755e-07,
6669
+ "loss": 0.0567,
6670
+ "step": 947
6671
+ },
6672
+ {
6673
+ "epoch": 0.4827498408656906,
6674
+ "grad_norm": 5.195967674255371,
6675
+ "learning_rate": 6.791885693514133e-07,
6676
+ "loss": 0.0777,
6677
+ "step": 948
6678
+ },
6679
+ {
6680
+ "epoch": 0.48325907065563334,
6681
+ "grad_norm": 15.034565925598145,
6682
+ "learning_rate": 6.533736077758868e-07,
6683
+ "loss": 0.073,
6684
+ "step": 949
6685
+ },
6686
+ {
6687
+ "epoch": 0.48376830044557606,
6688
+ "grad_norm": 3.8854053020477295,
6689
+ "learning_rate": 6.280555661802856e-07,
6690
+ "loss": 0.0394,
6691
+ "step": 950
6692
+ },
6693
+ {
6694
+ "epoch": 0.4842775302355188,
6695
+ "grad_norm": 3.7877042293548584,
6696
+ "learning_rate": 6.032346995169968e-07,
6697
+ "loss": 0.7431,
6698
+ "step": 951
6699
+ },
6700
+ {
6701
+ "epoch": 0.4847867600254615,
6702
+ "grad_norm": 11.732136726379395,
6703
+ "learning_rate": 5.78911257731879e-07,
6704
+ "loss": 0.6649,
6705
+ "step": 952
6706
+ },
6707
+ {
6708
+ "epoch": 0.4852959898154042,
6709
+ "grad_norm": 5.163148403167725,
6710
+ "learning_rate": 5.550854857617193e-07,
6711
+ "loss": 0.4255,
6712
+ "step": 953
6713
+ },
6714
+ {
6715
+ "epoch": 0.4858052196053469,
6716
+ "grad_norm": 7.868194580078125,
6717
+ "learning_rate": 5.317576235317756e-07,
6718
+ "loss": 0.7605,
6719
+ "step": 954
6720
+ },
6721
+ {
6722
+ "epoch": 0.4863144493952896,
6723
+ "grad_norm": 7.837756633758545,
6724
+ "learning_rate": 5.089279059533658e-07,
6725
+ "loss": 0.7603,
6726
+ "step": 955
6727
+ },
6728
+ {
6729
+ "epoch": 0.48682367918523234,
6730
+ "grad_norm": 6.926958084106445,
6731
+ "learning_rate": 4.865965629214819e-07,
6732
+ "loss": 0.3583,
6733
+ "step": 956
6734
+ },
6735
+ {
6736
+ "epoch": 0.48733290897517506,
6737
+ "grad_norm": 6.891408920288086,
6738
+ "learning_rate": 4.647638193125137e-07,
6739
+ "loss": 0.5063,
6740
+ "step": 957
6741
+ },
6742
+ {
6743
+ "epoch": 0.4878421387651178,
6744
+ "grad_norm": 17.593307495117188,
6745
+ "learning_rate": 4.434298949819449e-07,
6746
+ "loss": 1.0916,
6747
+ "step": 958
6748
+ },
6749
+ {
6750
+ "epoch": 0.48835136855506045,
6751
+ "grad_norm": 13.12249755859375,
6752
+ "learning_rate": 4.2259500476214407e-07,
6753
+ "loss": 1.178,
6754
+ "step": 959
6755
+ },
6756
+ {
6757
+ "epoch": 0.48886059834500317,
6758
+ "grad_norm": 8.691963195800781,
6759
+ "learning_rate": 4.02259358460233e-07,
6760
+ "loss": 0.6026,
6761
+ "step": 960
6762
+ },
6763
+ {
6764
+ "epoch": 0.4893698281349459,
6765
+ "grad_norm": 5.080837726593018,
6766
+ "learning_rate": 3.824231608559492e-07,
6767
+ "loss": 0.379,
6768
+ "step": 961
6769
+ },
6770
+ {
6771
+ "epoch": 0.4898790579248886,
6772
+ "grad_norm": 10.101880073547363,
6773
+ "learning_rate": 3.630866116995757e-07,
6774
+ "loss": 0.8812,
6775
+ "step": 962
6776
+ },
6777
+ {
6778
+ "epoch": 0.49038828771483134,
6779
+ "grad_norm": 2.2711408138275146,
6780
+ "learning_rate": 3.4424990570994797e-07,
6781
+ "loss": 0.1018,
6782
+ "step": 963
6783
+ },
6784
+ {
6785
+ "epoch": 0.490897517504774,
6786
+ "grad_norm": 0.9632775187492371,
6787
+ "learning_rate": 3.2591323257248893e-07,
6788
+ "loss": 0.1066,
6789
+ "step": 964
6790
+ },
6791
+ {
6792
+ "epoch": 0.49140674729471673,
6793
+ "grad_norm": 2.8695173263549805,
6794
+ "learning_rate": 3.080767769372939e-07,
6795
+ "loss": 0.1316,
6796
+ "step": 965
6797
+ },
6798
+ {
6799
+ "epoch": 0.49191597708465945,
6800
+ "grad_norm": 1.3276772499084473,
6801
+ "learning_rate": 2.907407184172706e-07,
6802
+ "loss": 0.0816,
6803
+ "step": 966
6804
+ },
6805
+ {
6806
+ "epoch": 0.4924252068746022,
6807
+ "grad_norm": 4.322078227996826,
6808
+ "learning_rate": 2.7390523158633554e-07,
6809
+ "loss": 0.1199,
6810
+ "step": 967
6811
+ },
6812
+ {
6813
+ "epoch": 0.4929344366645449,
6814
+ "grad_norm": 0.6163370013237,
6815
+ "learning_rate": 2.5757048597765396e-07,
6816
+ "loss": 0.0881,
6817
+ "step": 968
6818
+ },
6819
+ {
6820
+ "epoch": 0.49344366645448756,
6821
+ "grad_norm": 0.8970826864242554,
6822
+ "learning_rate": 2.4173664608193593e-07,
6823
+ "loss": 0.095,
6824
+ "step": 969
6825
+ },
6826
+ {
6827
+ "epoch": 0.4939528962444303,
6828
+ "grad_norm": 1.772135615348816,
6829
+ "learning_rate": 2.2640387134577058e-07,
6830
+ "loss": 0.0945,
6831
+ "step": 970
6832
+ },
6833
+ {
6834
+ "epoch": 0.494462126034373,
6835
+ "grad_norm": 1.8468323945999146,
6836
+ "learning_rate": 2.1157231617002783e-07,
6837
+ "loss": 0.136,
6838
+ "step": 971
6839
+ },
6840
+ {
6841
+ "epoch": 0.49497135582431573,
6842
+ "grad_norm": 2.6759517192840576,
6843
+ "learning_rate": 1.9724212990830938e-07,
6844
+ "loss": 0.138,
6845
+ "step": 972
6846
+ },
6847
+ {
6848
+ "epoch": 0.49548058561425845,
6849
+ "grad_norm": 0.8388791680335999,
6850
+ "learning_rate": 1.8341345686543332e-07,
6851
+ "loss": 0.1131,
6852
+ "step": 973
6853
+ },
6854
+ {
6855
+ "epoch": 0.4959898154042012,
6856
+ "grad_norm": 5.01349401473999,
6857
+ "learning_rate": 1.7008643629596866e-07,
6858
+ "loss": 0.104,
6859
+ "step": 974
6860
+ },
6861
+ {
6862
+ "epoch": 0.49649904519414384,
6863
+ "grad_norm": 8.658512115478516,
6864
+ "learning_rate": 1.5726120240288634e-07,
6865
+ "loss": 0.088,
6866
+ "step": 975
6867
+ },
6868
+ {
6869
+ "epoch": 0.49700827498408656,
6870
+ "grad_norm": 10.031734466552734,
6871
+ "learning_rate": 1.449378843361271e-07,
6872
+ "loss": 0.1412,
6873
+ "step": 976
6874
+ },
6875
+ {
6876
+ "epoch": 0.4975175047740293,
6877
+ "grad_norm": 5.323798656463623,
6878
+ "learning_rate": 1.3311660619138578e-07,
6879
+ "loss": 0.0799,
6880
+ "step": 977
6881
+ },
6882
+ {
6883
+ "epoch": 0.498026734563972,
6884
+ "grad_norm": 14.896018981933594,
6885
+ "learning_rate": 1.2179748700879012e-07,
6886
+ "loss": 0.0547,
6887
+ "step": 978
6888
+ },
6889
+ {
6890
+ "epoch": 0.49853596435391473,
6891
+ "grad_norm": 2.8598153591156006,
6892
+ "learning_rate": 1.109806407717462e-07,
6893
+ "loss": 0.057,
6894
+ "step": 979
6895
+ },
6896
+ {
6897
+ "epoch": 0.4990451941438574,
6898
+ "grad_norm": 4.470668792724609,
6899
+ "learning_rate": 1.0066617640578368e-07,
6900
+ "loss": 0.1221,
6901
+ "step": 980
6902
+ },
6903
+ {
6904
+ "epoch": 0.4995544239338001,
6905
+ "grad_norm": 6.321918964385986,
6906
+ "learning_rate": 9.085419777743465e-08,
6907
+ "loss": 0.1274,
6908
+ "step": 981
6909
+ },
6910
+ {
6911
+ "epoch": 0.5000636537237428,
6912
+ "grad_norm": 4.125798225402832,
6913
+ "learning_rate": 8.15448036932176e-08,
6914
+ "loss": 0.0822,
6915
+ "step": 982
6916
+ },
6917
+ {
6918
+ "epoch": 0.5005728835136856,
6919
+ "grad_norm": 5.414987564086914,
6920
+ "learning_rate": 7.273808789862724e-08,
6921
+ "loss": 0.0796,
6922
+ "step": 983
6923
+ },
6924
+ {
6925
+ "epoch": 0.5010821133036283,
6926
+ "grad_norm": 5.301061153411865,
6927
+ "learning_rate": 6.443413907720186e-08,
6928
+ "loss": 0.1011,
6929
+ "step": 984
6930
+ },
6931
+ {
6932
+ "epoch": 0.501591343093571,
6933
+ "grad_norm": 6.373870849609375,
6934
+ "learning_rate": 5.663304084960186e-08,
6935
+ "loss": 0.1335,
6936
+ "step": 985
6937
+ },
6938
+ {
6939
+ "epoch": 0.5021005728835137,
6940
+ "grad_norm": 3.59035062789917,
6941
+ "learning_rate": 4.933487177280482e-08,
6942
+ "loss": 0.06,
6943
+ "step": 986
6944
+ },
6945
+ {
6946
+ "epoch": 0.5026098026734565,
6947
+ "grad_norm": 4.328834533691406,
6948
+ "learning_rate": 4.253970533929508e-08,
6949
+ "loss": 0.0565,
6950
+ "step": 987
6951
+ },
6952
+ {
6953
+ "epoch": 0.5031190324633991,
6954
+ "grad_norm": 2.652255058288574,
6955
+ "learning_rate": 3.624760997631982e-08,
6956
+ "loss": 0.0428,
6957
+ "step": 988
6958
+ },
6959
+ {
6960
+ "epoch": 0.5036282622533418,
6961
+ "grad_norm": 4.667551040649414,
6962
+ "learning_rate": 3.04586490452119e-08,
6963
+ "loss": 0.0206,
6964
+ "step": 989
6965
+ },
6966
+ {
6967
+ "epoch": 0.5041374920432845,
6968
+ "grad_norm": 7.6786112785339355,
6969
+ "learning_rate": 2.5172880840745873e-08,
6970
+ "loss": 0.1095,
6971
+ "step": 990
6972
+ },
6973
+ {
6974
+ "epoch": 0.5046467218332272,
6975
+ "grad_norm": 3.08980131149292,
6976
+ "learning_rate": 2.0390358590538504e-08,
6977
+ "loss": 0.0337,
6978
+ "step": 991
6979
+ },
6980
+ {
6981
+ "epoch": 0.50515595162317,
6982
+ "grad_norm": 2.030238389968872,
6983
+ "learning_rate": 1.6111130454543598e-08,
6984
+ "loss": 0.0064,
6985
+ "step": 992
6986
+ },
6987
+ {
6988
+ "epoch": 0.5056651814131127,
6989
+ "grad_norm": 0.7045100331306458,
6990
+ "learning_rate": 1.2335239524541299e-08,
6991
+ "loss": 0.0105,
6992
+ "step": 993
6993
+ },
6994
+ {
6995
+ "epoch": 0.5061744112030554,
6996
+ "grad_norm": 8.8118896484375,
6997
+ "learning_rate": 9.06272382371065e-09,
6998
+ "loss": 0.0789,
6999
+ "step": 994
7000
+ },
7001
+ {
7002
+ "epoch": 0.5066836409929981,
7003
+ "grad_norm": 8.802488327026367,
7004
+ "learning_rate": 6.293616306246586e-09,
7005
+ "loss": 0.0811,
7006
+ "step": 995
7007
+ },
7008
+ {
7009
+ "epoch": 0.5071928707829408,
7010
+ "grad_norm": 4.467785358428955,
7011
+ "learning_rate": 4.0279448570323954e-09,
7012
+ "loss": 0.0437,
7013
+ "step": 996
7014
+ },
7015
+ {
7016
+ "epoch": 0.5077021005728836,
7017
+ "grad_norm": 8.837767601013184,
7018
+ "learning_rate": 2.265732291356626e-09,
7019
+ "loss": 0.0425,
7020
+ "step": 997
7021
+ },
7022
+ {
7023
+ "epoch": 0.5082113303628262,
7024
+ "grad_norm": 7.292797565460205,
7025
+ "learning_rate": 1.0069963546743832e-09,
7026
+ "loss": 0.0808,
7027
+ "step": 998
7028
+ },
7029
+ {
7030
+ "epoch": 0.5087205601527689,
7031
+ "grad_norm": 3.702165365219116,
7032
+ "learning_rate": 2.5174972244634833e-10,
7033
+ "loss": 0.0469,
7034
+ "step": 999
7035
+ },
7036
+ {
7037
+ "epoch": 0.5092297899427116,
7038
+ "grad_norm": 8.40251636505127,
7039
+ "learning_rate": 0.0,
7040
+ "loss": 0.0725,
7041
+ "step": 1000
7042
+ },
7043
+ {
7044
+ "epoch": 0.5092297899427116,
7045
+ "eval_loss": 0.22850316762924194,
7046
+ "eval_runtime": 378.274,
7047
+ "eval_samples_per_second": 8.745,
7048
+ "eval_steps_per_second": 2.186,
7049
+ "step": 1000
7050
  }
7051
  ],
7052
  "logging_steps": 1,
 
7070
  "should_evaluate": false,
7071
  "should_log": false,
7072
  "should_save": true,
7073
+ "should_training_stop": true
7074
  },
7075
  "attributes": {}
7076
  }
7077
  },
7078
+ "total_flos": 2.0800300944866673e+18,
7079
  "train_batch_size": 8,
7080
  "trial_name": null,
7081
  "trial_params": null