Romain-XV commited on
Commit
3f52b04
·
verified ·
1 Parent(s): 89535ca

Training in progress, step 200, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2c2f4df89c706bd795cf61cd880b8c847603a75f25b065b1e0fc555b0bbde2cb
3
  size 144805440
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d754ba46403471642fb3eec991a13b30626e411f350e52e7b0ba85dcbe5df5ad
3
  size 144805440
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8b9c2881cf3ec93417fc2d54ac97ba9a7c9dbe98604cb5c93c40f55f7e7463a5
3
  size 74291604
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:10a96b370d1bef983712eb142fc43f6f0f1d0870efa1c253d6c733799a46f741
3
  size 74291604
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:fc138860ab105b276c76a34cb2106056fc94aa4b282c5d34dee59a18265e2ee0
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7e9068a537e5910a69bd8d8437185b23968169fbf47b4ea54829c00092157a9c
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3bf32963594d89a0ceccb5a8224effbfcb1f1a9bd636238e18e9c6df35eff9ac
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:640f62f8d5c8ab2ac2c8a2097dccc04a34c4b29def0309df243ff8ccd6710772
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 1.2906723022460938,
3
- "best_model_checkpoint": "miner_id_24/checkpoint-100",
4
- "epoch": 0.01271304278733463,
5
  "eval_steps": 100,
6
- "global_step": 100,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -723,6 +723,714 @@
723
  "eval_samples_per_second": 3.973,
724
  "eval_steps_per_second": 0.993,
725
  "step": 100
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
726
  }
727
  ],
728
  "logging_steps": 1,
@@ -751,7 +1459,7 @@
751
  "attributes": {}
752
  }
753
  },
754
- "total_flos": 1.0364000227295232e+18,
755
  "train_batch_size": 4,
756
  "trial_name": null,
757
  "trial_params": null
 
1
  {
2
+ "best_metric": 1.2551084756851196,
3
+ "best_model_checkpoint": "miner_id_24/checkpoint-200",
4
+ "epoch": 0.02542608557466926,
5
  "eval_steps": 100,
6
+ "global_step": 200,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
723
  "eval_samples_per_second": 3.973,
724
  "eval_steps_per_second": 0.993,
725
  "step": 100
726
+ },
727
+ {
728
+ "epoch": 0.012840173215207978,
729
+ "grad_norm": 0.1781390905380249,
730
+ "learning_rate": 0.0001864086844042209,
731
+ "loss": 1.3021,
732
+ "step": 101
733
+ },
734
+ {
735
+ "epoch": 0.012967303643081324,
736
+ "grad_norm": 0.17100100219249725,
737
+ "learning_rate": 0.00018611548212485647,
738
+ "loss": 1.2574,
739
+ "step": 102
740
+ },
741
+ {
742
+ "epoch": 0.01309443407095467,
743
+ "grad_norm": 0.18398095667362213,
744
+ "learning_rate": 0.00018581938662725632,
745
+ "loss": 1.2839,
746
+ "step": 103
747
+ },
748
+ {
749
+ "epoch": 0.013221564498828017,
750
+ "grad_norm": 0.18981115520000458,
751
+ "learning_rate": 0.00018552040785932845,
752
+ "loss": 1.3149,
753
+ "step": 104
754
+ },
755
+ {
756
+ "epoch": 0.013348694926701363,
757
+ "grad_norm": 0.18872378766536713,
758
+ "learning_rate": 0.00018521855586584995,
759
+ "loss": 1.279,
760
+ "step": 105
761
+ },
762
+ {
763
+ "epoch": 0.013475825354574708,
764
+ "grad_norm": 0.1824631690979004,
765
+ "learning_rate": 0.00018491384078812959,
766
+ "loss": 1.2743,
767
+ "step": 106
768
+ },
769
+ {
770
+ "epoch": 0.013602955782448056,
771
+ "grad_norm": 0.1971443146467209,
772
+ "learning_rate": 0.000184606272863667,
773
+ "loss": 1.3365,
774
+ "step": 107
775
+ },
776
+ {
777
+ "epoch": 0.013730086210321402,
778
+ "grad_norm": 0.19964328408241272,
779
+ "learning_rate": 0.00018429586242580884,
780
+ "loss": 1.3184,
781
+ "step": 108
782
+ },
783
+ {
784
+ "epoch": 0.013857216638194747,
785
+ "grad_norm": 0.17624543607234955,
786
+ "learning_rate": 0.00018398261990340152,
787
+ "loss": 1.2755,
788
+ "step": 109
789
+ },
790
+ {
791
+ "epoch": 0.013984347066068095,
792
+ "grad_norm": 0.18599238991737366,
793
+ "learning_rate": 0.00018366655582044094,
794
+ "loss": 1.3025,
795
+ "step": 110
796
+ },
797
+ {
798
+ "epoch": 0.01411147749394144,
799
+ "grad_norm": 0.19051305949687958,
800
+ "learning_rate": 0.00018334768079571884,
801
+ "loss": 1.351,
802
+ "step": 111
803
+ },
804
+ {
805
+ "epoch": 0.014238607921814786,
806
+ "grad_norm": 0.1858106255531311,
807
+ "learning_rate": 0.00018302600554246601,
808
+ "loss": 1.2386,
809
+ "step": 112
810
+ },
811
+ {
812
+ "epoch": 0.014365738349688134,
813
+ "grad_norm": 0.17598244547843933,
814
+ "learning_rate": 0.00018270154086799239,
815
+ "loss": 1.2687,
816
+ "step": 113
817
+ },
818
+ {
819
+ "epoch": 0.01449286877756148,
820
+ "grad_norm": 0.18105947971343994,
821
+ "learning_rate": 0.00018237429767332405,
822
+ "loss": 1.2843,
823
+ "step": 114
824
+ },
825
+ {
826
+ "epoch": 0.014619999205434825,
827
+ "grad_norm": 0.18796177208423615,
828
+ "learning_rate": 0.00018204428695283687,
829
+ "loss": 1.2999,
830
+ "step": 115
831
+ },
832
+ {
833
+ "epoch": 0.014747129633308173,
834
+ "grad_norm": 0.18702763319015503,
835
+ "learning_rate": 0.00018171151979388714,
836
+ "loss": 1.2391,
837
+ "step": 116
838
+ },
839
+ {
840
+ "epoch": 0.014874260061181518,
841
+ "grad_norm": 0.17469799518585205,
842
+ "learning_rate": 0.00018137600737643913,
843
+ "loss": 1.2915,
844
+ "step": 117
845
+ },
846
+ {
847
+ "epoch": 0.015001390489054864,
848
+ "grad_norm": 0.1871766746044159,
849
+ "learning_rate": 0.00018103776097268942,
850
+ "loss": 1.2429,
851
+ "step": 118
852
+ },
853
+ {
854
+ "epoch": 0.015128520916928212,
855
+ "grad_norm": 0.18426093459129333,
856
+ "learning_rate": 0.00018069679194668826,
857
+ "loss": 1.2678,
858
+ "step": 119
859
+ },
860
+ {
861
+ "epoch": 0.015255651344801557,
862
+ "grad_norm": 0.1830713450908661,
863
+ "learning_rate": 0.0001803531117539577,
864
+ "loss": 1.3231,
865
+ "step": 120
866
+ },
867
+ {
868
+ "epoch": 0.015382781772674903,
869
+ "grad_norm": 0.19156108796596527,
870
+ "learning_rate": 0.00018000673194110668,
871
+ "loss": 1.3426,
872
+ "step": 121
873
+ },
874
+ {
875
+ "epoch": 0.01550991220054825,
876
+ "grad_norm": 0.18232569098472595,
877
+ "learning_rate": 0.00017965766414544326,
878
+ "loss": 1.2227,
879
+ "step": 122
880
+ },
881
+ {
882
+ "epoch": 0.015637042628421596,
883
+ "grad_norm": 0.18696987628936768,
884
+ "learning_rate": 0.00017930592009458352,
885
+ "loss": 1.2933,
886
+ "step": 123
887
+ },
888
+ {
889
+ "epoch": 0.015764173056294944,
890
+ "grad_norm": 0.18148070573806763,
891
+ "learning_rate": 0.00017895151160605757,
892
+ "loss": 1.3598,
893
+ "step": 124
894
+ },
895
+ {
896
+ "epoch": 0.015891303484168288,
897
+ "grad_norm": 0.1859319657087326,
898
+ "learning_rate": 0.00017859445058691247,
899
+ "loss": 1.2688,
900
+ "step": 125
901
+ },
902
+ {
903
+ "epoch": 0.016018433912041635,
904
+ "grad_norm": 0.18133966624736786,
905
+ "learning_rate": 0.00017823474903331233,
906
+ "loss": 1.2912,
907
+ "step": 126
908
+ },
909
+ {
910
+ "epoch": 0.016145564339914983,
911
+ "grad_norm": 0.16695751249790192,
912
+ "learning_rate": 0.0001778724190301351,
913
+ "loss": 1.2772,
914
+ "step": 127
915
+ },
916
+ {
917
+ "epoch": 0.016272694767788327,
918
+ "grad_norm": 0.17694084346294403,
919
+ "learning_rate": 0.0001775074727505667,
920
+ "loss": 1.2998,
921
+ "step": 128
922
+ },
923
+ {
924
+ "epoch": 0.016399825195661674,
925
+ "grad_norm": 0.18545518815517426,
926
+ "learning_rate": 0.0001771399224556919,
927
+ "loss": 1.2996,
928
+ "step": 129
929
+ },
930
+ {
931
+ "epoch": 0.01652695562353502,
932
+ "grad_norm": 0.1763446033000946,
933
+ "learning_rate": 0.00017676978049408263,
934
+ "loss": 1.2942,
935
+ "step": 130
936
+ },
937
+ {
938
+ "epoch": 0.016654086051408366,
939
+ "grad_norm": 0.1751178801059723,
940
+ "learning_rate": 0.00017639705930138272,
941
+ "loss": 1.2491,
942
+ "step": 131
943
+ },
944
+ {
945
+ "epoch": 0.016781216479281713,
946
+ "grad_norm": 0.17463481426239014,
947
+ "learning_rate": 0.00017602177139989044,
948
+ "loss": 1.3015,
949
+ "step": 132
950
+ },
951
+ {
952
+ "epoch": 0.01690834690715506,
953
+ "grad_norm": 0.1884208619594574,
954
+ "learning_rate": 0.0001756439293981377,
955
+ "loss": 1.2555,
956
+ "step": 133
957
+ },
958
+ {
959
+ "epoch": 0.017035477335028405,
960
+ "grad_norm": 0.1824871301651001,
961
+ "learning_rate": 0.00017526354599046635,
962
+ "loss": 1.3321,
963
+ "step": 134
964
+ },
965
+ {
966
+ "epoch": 0.017162607762901752,
967
+ "grad_norm": 0.17852945625782013,
968
+ "learning_rate": 0.00017488063395660177,
969
+ "loss": 1.2134,
970
+ "step": 135
971
+ },
972
+ {
973
+ "epoch": 0.0172897381907751,
974
+ "grad_norm": 0.17903351783752441,
975
+ "learning_rate": 0.00017449520616122344,
976
+ "loss": 1.202,
977
+ "step": 136
978
+ },
979
+ {
980
+ "epoch": 0.017416868618648444,
981
+ "grad_norm": 0.19624289870262146,
982
+ "learning_rate": 0.00017410727555353282,
983
+ "loss": 1.2983,
984
+ "step": 137
985
+ },
986
+ {
987
+ "epoch": 0.01754399904652179,
988
+ "grad_norm": 0.20271572470664978,
989
+ "learning_rate": 0.00017371685516681825,
990
+ "loss": 1.331,
991
+ "step": 138
992
+ },
993
+ {
994
+ "epoch": 0.01767112947439514,
995
+ "grad_norm": 0.19160455465316772,
996
+ "learning_rate": 0.00017332395811801707,
997
+ "loss": 1.2325,
998
+ "step": 139
999
+ },
1000
+ {
1001
+ "epoch": 0.017798259902268482,
1002
+ "grad_norm": 0.19286282360553741,
1003
+ "learning_rate": 0.00017292859760727493,
1004
+ "loss": 1.3632,
1005
+ "step": 140
1006
+ },
1007
+ {
1008
+ "epoch": 0.01792539033014183,
1009
+ "grad_norm": 0.18525561690330505,
1010
+ "learning_rate": 0.00017253078691750227,
1011
+ "loss": 1.302,
1012
+ "step": 141
1013
+ },
1014
+ {
1015
+ "epoch": 0.018052520758015177,
1016
+ "grad_norm": 0.17999610304832458,
1017
+ "learning_rate": 0.00017213053941392818,
1018
+ "loss": 1.2617,
1019
+ "step": 142
1020
+ },
1021
+ {
1022
+ "epoch": 0.01817965118588852,
1023
+ "grad_norm": 0.1817435920238495,
1024
+ "learning_rate": 0.00017172786854365116,
1025
+ "loss": 1.285,
1026
+ "step": 143
1027
+ },
1028
+ {
1029
+ "epoch": 0.01830678161376187,
1030
+ "grad_norm": 0.18393941223621368,
1031
+ "learning_rate": 0.00017132278783518756,
1032
+ "loss": 1.2033,
1033
+ "step": 144
1034
+ },
1035
+ {
1036
+ "epoch": 0.018433912041635216,
1037
+ "grad_norm": 0.18280182778835297,
1038
+ "learning_rate": 0.00017091531089801694,
1039
+ "loss": 1.2454,
1040
+ "step": 145
1041
+ },
1042
+ {
1043
+ "epoch": 0.01856104246950856,
1044
+ "grad_norm": 0.17269238829612732,
1045
+ "learning_rate": 0.00017050545142212483,
1046
+ "loss": 1.2137,
1047
+ "step": 146
1048
+ },
1049
+ {
1050
+ "epoch": 0.018688172897381908,
1051
+ "grad_norm": 0.18515561521053314,
1052
+ "learning_rate": 0.00017009322317754278,
1053
+ "loss": 1.2876,
1054
+ "step": 147
1055
+ },
1056
+ {
1057
+ "epoch": 0.018815303325255255,
1058
+ "grad_norm": 0.18649280071258545,
1059
+ "learning_rate": 0.0001696786400138859,
1060
+ "loss": 1.3279,
1061
+ "step": 148
1062
+ },
1063
+ {
1064
+ "epoch": 0.0189424337531286,
1065
+ "grad_norm": 0.18008284270763397,
1066
+ "learning_rate": 0.00016926171585988727,
1067
+ "loss": 1.1943,
1068
+ "step": 149
1069
+ },
1070
+ {
1071
+ "epoch": 0.019069564181001947,
1072
+ "grad_norm": 0.18855896592140198,
1073
+ "learning_rate": 0.00016884246472293016,
1074
+ "loss": 1.3458,
1075
+ "step": 150
1076
+ },
1077
+ {
1078
+ "epoch": 0.019196694608875294,
1079
+ "grad_norm": 0.18721222877502441,
1080
+ "learning_rate": 0.00016842090068857742,
1081
+ "loss": 1.205,
1082
+ "step": 151
1083
+ },
1084
+ {
1085
+ "epoch": 0.019323825036748638,
1086
+ "grad_norm": 0.18609726428985596,
1087
+ "learning_rate": 0.00016799703792009827,
1088
+ "loss": 1.3147,
1089
+ "step": 152
1090
+ },
1091
+ {
1092
+ "epoch": 0.019450955464621986,
1093
+ "grad_norm": 0.18827542662620544,
1094
+ "learning_rate": 0.00016757089065799226,
1095
+ "loss": 1.2053,
1096
+ "step": 153
1097
+ },
1098
+ {
1099
+ "epoch": 0.019578085892495333,
1100
+ "grad_norm": 0.19211921095848083,
1101
+ "learning_rate": 0.00016714247321951106,
1102
+ "loss": 1.2881,
1103
+ "step": 154
1104
+ },
1105
+ {
1106
+ "epoch": 0.019705216320368677,
1107
+ "grad_norm": 0.1911146342754364,
1108
+ "learning_rate": 0.0001667117999981774,
1109
+ "loss": 1.2841,
1110
+ "step": 155
1111
+ },
1112
+ {
1113
+ "epoch": 0.019832346748242025,
1114
+ "grad_norm": 0.1876746416091919,
1115
+ "learning_rate": 0.00016627888546330138,
1116
+ "loss": 1.2795,
1117
+ "step": 156
1118
+ },
1119
+ {
1120
+ "epoch": 0.019959477176115372,
1121
+ "grad_norm": 0.18275220692157745,
1122
+ "learning_rate": 0.00016584374415949443,
1123
+ "loss": 1.2646,
1124
+ "step": 157
1125
+ },
1126
+ {
1127
+ "epoch": 0.020086607603988716,
1128
+ "grad_norm": 0.19240595400333405,
1129
+ "learning_rate": 0.0001654063907061807,
1130
+ "loss": 1.2286,
1131
+ "step": 158
1132
+ },
1133
+ {
1134
+ "epoch": 0.020213738031862064,
1135
+ "grad_norm": 0.17621144652366638,
1136
+ "learning_rate": 0.00016496683979710575,
1137
+ "loss": 1.2623,
1138
+ "step": 159
1139
+ },
1140
+ {
1141
+ "epoch": 0.02034086845973541,
1142
+ "grad_norm": 0.18566247820854187,
1143
+ "learning_rate": 0.000164525106199843,
1144
+ "loss": 1.2915,
1145
+ "step": 160
1146
+ },
1147
+ {
1148
+ "epoch": 0.020467998887608755,
1149
+ "grad_norm": 0.19843867421150208,
1150
+ "learning_rate": 0.00016408120475529763,
1151
+ "loss": 1.1703,
1152
+ "step": 161
1153
+ },
1154
+ {
1155
+ "epoch": 0.020595129315482102,
1156
+ "grad_norm": 0.20230089128017426,
1157
+ "learning_rate": 0.00016363515037720773,
1158
+ "loss": 1.274,
1159
+ "step": 162
1160
+ },
1161
+ {
1162
+ "epoch": 0.02072225974335545,
1163
+ "grad_norm": 0.1874382644891739,
1164
+ "learning_rate": 0.00016318695805164359,
1165
+ "loss": 1.267,
1166
+ "step": 163
1167
+ },
1168
+ {
1169
+ "epoch": 0.020849390171228794,
1170
+ "grad_norm": 0.19301468133926392,
1171
+ "learning_rate": 0.0001627366428365039,
1172
+ "loss": 1.3385,
1173
+ "step": 164
1174
+ },
1175
+ {
1176
+ "epoch": 0.02097652059910214,
1177
+ "grad_norm": 0.1960678994655609,
1178
+ "learning_rate": 0.00016228421986101005,
1179
+ "loss": 1.2469,
1180
+ "step": 165
1181
+ },
1182
+ {
1183
+ "epoch": 0.02110365102697549,
1184
+ "grad_norm": 0.2149035483598709,
1185
+ "learning_rate": 0.00016182970432519772,
1186
+ "loss": 1.2695,
1187
+ "step": 166
1188
+ },
1189
+ {
1190
+ "epoch": 0.021230781454848833,
1191
+ "grad_norm": 0.1928316354751587,
1192
+ "learning_rate": 0.00016137311149940633,
1193
+ "loss": 1.2581,
1194
+ "step": 167
1195
+ },
1196
+ {
1197
+ "epoch": 0.02135791188272218,
1198
+ "grad_norm": 0.18403369188308716,
1199
+ "learning_rate": 0.0001609144567237658,
1200
+ "loss": 1.2872,
1201
+ "step": 168
1202
+ },
1203
+ {
1204
+ "epoch": 0.021485042310595528,
1205
+ "grad_norm": 0.18688054382801056,
1206
+ "learning_rate": 0.00016045375540768136,
1207
+ "loss": 1.2762,
1208
+ "step": 169
1209
+ },
1210
+ {
1211
+ "epoch": 0.021612172738468872,
1212
+ "grad_norm": 0.19875864684581757,
1213
+ "learning_rate": 0.00015999102302931585,
1214
+ "loss": 1.2773,
1215
+ "step": 170
1216
+ },
1217
+ {
1218
+ "epoch": 0.02173930316634222,
1219
+ "grad_norm": 0.19474861025810242,
1220
+ "learning_rate": 0.0001595262751350695,
1221
+ "loss": 1.2329,
1222
+ "step": 171
1223
+ },
1224
+ {
1225
+ "epoch": 0.021866433594215567,
1226
+ "grad_norm": 0.1946505606174469,
1227
+ "learning_rate": 0.00015905952733905775,
1228
+ "loss": 1.1726,
1229
+ "step": 172
1230
+ },
1231
+ {
1232
+ "epoch": 0.02199356402208891,
1233
+ "grad_norm": 0.18479324877262115,
1234
+ "learning_rate": 0.00015859079532258677,
1235
+ "loss": 1.3177,
1236
+ "step": 173
1237
+ },
1238
+ {
1239
+ "epoch": 0.022120694449962258,
1240
+ "grad_norm": 0.19268646836280823,
1241
+ "learning_rate": 0.00015812009483362642,
1242
+ "loss": 1.2721,
1243
+ "step": 174
1244
+ },
1245
+ {
1246
+ "epoch": 0.022247824877835606,
1247
+ "grad_norm": 0.18371957540512085,
1248
+ "learning_rate": 0.0001576474416862812,
1249
+ "loss": 1.3083,
1250
+ "step": 175
1251
+ },
1252
+ {
1253
+ "epoch": 0.02237495530570895,
1254
+ "grad_norm": 0.1987624615430832,
1255
+ "learning_rate": 0.00015717285176025913,
1256
+ "loss": 1.2582,
1257
+ "step": 176
1258
+ },
1259
+ {
1260
+ "epoch": 0.022502085733582297,
1261
+ "grad_norm": 0.19360652565956116,
1262
+ "learning_rate": 0.00015669634100033797,
1263
+ "loss": 1.2597,
1264
+ "step": 177
1265
+ },
1266
+ {
1267
+ "epoch": 0.022629216161455645,
1268
+ "grad_norm": 0.1875244826078415,
1269
+ "learning_rate": 0.00015621792541582966,
1270
+ "loss": 1.2637,
1271
+ "step": 178
1272
+ },
1273
+ {
1274
+ "epoch": 0.02275634658932899,
1275
+ "grad_norm": 0.19594229757785797,
1276
+ "learning_rate": 0.00015573762108004262,
1277
+ "loss": 1.2907,
1278
+ "step": 179
1279
+ },
1280
+ {
1281
+ "epoch": 0.022883477017202336,
1282
+ "grad_norm": 0.1935066133737564,
1283
+ "learning_rate": 0.00015525544412974132,
1284
+ "loss": 1.2446,
1285
+ "step": 180
1286
+ },
1287
+ {
1288
+ "epoch": 0.023010607445075684,
1289
+ "grad_norm": 0.19178606569766998,
1290
+ "learning_rate": 0.0001547714107646046,
1291
+ "loss": 1.2644,
1292
+ "step": 181
1293
+ },
1294
+ {
1295
+ "epoch": 0.023137737872949028,
1296
+ "grad_norm": 0.18824580311775208,
1297
+ "learning_rate": 0.00015428553724668103,
1298
+ "loss": 1.2592,
1299
+ "step": 182
1300
+ },
1301
+ {
1302
+ "epoch": 0.023264868300822375,
1303
+ "grad_norm": 0.1857818067073822,
1304
+ "learning_rate": 0.00015379783989984277,
1305
+ "loss": 1.2547,
1306
+ "step": 183
1307
+ },
1308
+ {
1309
+ "epoch": 0.023391998728695722,
1310
+ "grad_norm": 0.18491147458553314,
1311
+ "learning_rate": 0.00015330833510923718,
1312
+ "loss": 1.3073,
1313
+ "step": 184
1314
+ },
1315
+ {
1316
+ "epoch": 0.023519129156569066,
1317
+ "grad_norm": 0.19134363532066345,
1318
+ "learning_rate": 0.00015281703932073612,
1319
+ "loss": 1.2456,
1320
+ "step": 185
1321
+ },
1322
+ {
1323
+ "epoch": 0.023646259584442414,
1324
+ "grad_norm": 0.18579505383968353,
1325
+ "learning_rate": 0.0001523239690403835,
1326
+ "loss": 1.2626,
1327
+ "step": 186
1328
+ },
1329
+ {
1330
+ "epoch": 0.02377339001231576,
1331
+ "grad_norm": 0.18687140941619873,
1332
+ "learning_rate": 0.0001518291408338409,
1333
+ "loss": 1.2795,
1334
+ "step": 187
1335
+ },
1336
+ {
1337
+ "epoch": 0.023900520440189105,
1338
+ "grad_norm": 0.1869836449623108,
1339
+ "learning_rate": 0.00015133257132583073,
1340
+ "loss": 1.2111,
1341
+ "step": 188
1342
+ },
1343
+ {
1344
+ "epoch": 0.024027650868062453,
1345
+ "grad_norm": 0.18433886766433716,
1346
+ "learning_rate": 0.00015083427719957793,
1347
+ "loss": 1.1969,
1348
+ "step": 189
1349
+ },
1350
+ {
1351
+ "epoch": 0.0241547812959358,
1352
+ "grad_norm": 0.19012001156806946,
1353
+ "learning_rate": 0.0001503342751962493,
1354
+ "loss": 1.2973,
1355
+ "step": 190
1356
+ },
1357
+ {
1358
+ "epoch": 0.024281911723809144,
1359
+ "grad_norm": 0.18975861370563507,
1360
+ "learning_rate": 0.00014983258211439117,
1361
+ "loss": 1.2964,
1362
+ "step": 191
1363
+ },
1364
+ {
1365
+ "epoch": 0.024409042151682492,
1366
+ "grad_norm": 0.17685554921627045,
1367
+ "learning_rate": 0.0001493292148093649,
1368
+ "loss": 1.2763,
1369
+ "step": 192
1370
+ },
1371
+ {
1372
+ "epoch": 0.02453617257955584,
1373
+ "grad_norm": 0.19333194196224213,
1374
+ "learning_rate": 0.00014882419019278075,
1375
+ "loss": 1.3203,
1376
+ "step": 193
1377
+ },
1378
+ {
1379
+ "epoch": 0.024663303007429183,
1380
+ "grad_norm": 0.19778768718242645,
1381
+ "learning_rate": 0.00014831752523192948,
1382
+ "loss": 1.3204,
1383
+ "step": 194
1384
+ },
1385
+ {
1386
+ "epoch": 0.02479043343530253,
1387
+ "grad_norm": 0.1869363635778427,
1388
+ "learning_rate": 0.00014780923694921255,
1389
+ "loss": 1.2258,
1390
+ "step": 195
1391
+ },
1392
+ {
1393
+ "epoch": 0.024917563863175878,
1394
+ "grad_norm": 0.17671674489974976,
1395
+ "learning_rate": 0.00014729934242157004,
1396
+ "loss": 1.1667,
1397
+ "step": 196
1398
+ },
1399
+ {
1400
+ "epoch": 0.025044694291049222,
1401
+ "grad_norm": 0.1893490105867386,
1402
+ "learning_rate": 0.00014678785877990697,
1403
+ "loss": 1.3572,
1404
+ "step": 197
1405
+ },
1406
+ {
1407
+ "epoch": 0.02517182471892257,
1408
+ "grad_norm": 0.19606593251228333,
1409
+ "learning_rate": 0.00014627480320851774,
1410
+ "loss": 1.2507,
1411
+ "step": 198
1412
+ },
1413
+ {
1414
+ "epoch": 0.025298955146795917,
1415
+ "grad_norm": 0.20087891817092896,
1416
+ "learning_rate": 0.00014576019294450888,
1417
+ "loss": 1.3149,
1418
+ "step": 199
1419
+ },
1420
+ {
1421
+ "epoch": 0.02542608557466926,
1422
+ "grad_norm": 0.1857730895280838,
1423
+ "learning_rate": 0.00014524404527721977,
1424
+ "loss": 1.2893,
1425
+ "step": 200
1426
+ },
1427
+ {
1428
+ "epoch": 0.02542608557466926,
1429
+ "eval_loss": 1.2551084756851196,
1430
+ "eval_runtime": 1258.1994,
1431
+ "eval_samples_per_second": 3.974,
1432
+ "eval_steps_per_second": 0.993,
1433
+ "step": 200
1434
  }
1435
  ],
1436
  "logging_steps": 1,
 
1459
  "attributes": {}
1460
  }
1461
  },
1462
+ "total_flos": 2.0728000454590464e+18,
1463
  "train_batch_size": 4,
1464
  "trial_name": null,
1465
  "trial_params": null