ErrorAI commited on
Commit
97e44e9
·
verified ·
1 Parent(s): 5a29e24

Training in progress, step 1330, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:9cca9f27bcd2b1b3f2781ff3348caff7dfdc338608e16d5c986672579a69edd5
3
  size 48679352
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c1dc2cbbe57c97401a90d24ef883fe3c5e0b1f443286befb1eb3e141c611a7fd
3
  size 48679352
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:654f5ad232053c56b03c0dff973796ed6f3efd97c27655f3b61e2051fcd9b288
3
  size 25152884
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2baa0a73c29389e323435f73ecbbaa841f07ea042c06114f9fa5f92ecdc9f230
3
  size 25152884
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a3e495d9430e77a9a8235a79020af44fedd824541bf26d3b88fae05d6a5811e3
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c41965c9ba80b80aa013ab39ca7605c7004ac8b7b3982e9a1f27800d44b27d05
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:83c8739da06509b17311b3ff617932a8ea714dea69a235792df21c2f31217d11
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4dd83d88b5559b4d0fca903fbe38b787a7fe386065782a09f912476ae97c46fd
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.006640057693394173,
5
  "eval_steps": 500,
6
- "global_step": 999,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -7000,6 +7000,2323 @@
7000
  "learning_rate": 1.4623710158072663e-05,
7001
  "loss": 0.772,
7002
  "step": 999
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7003
  }
7004
  ],
7005
  "logging_steps": 1,
@@ -7014,12 +9331,12 @@
7014
  "should_evaluate": false,
7015
  "should_log": false,
7016
  "should_save": true,
7017
- "should_training_stop": false
7018
  },
7019
  "attributes": {}
7020
  }
7021
  },
7022
- "total_flos": 2.7808050135957504e+17,
7023
  "train_batch_size": 4,
7024
  "trial_name": null,
7025
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.008840116849063313,
5
  "eval_steps": 500,
6
+ "global_step": 1330,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
7000
  "learning_rate": 1.4623710158072663e-05,
7001
  "loss": 0.772,
7002
  "step": 999
7003
+ },
7004
+ {
7005
+ "epoch": 0.006646704397791965,
7006
+ "grad_norm": 2.8134305477142334,
7007
+ "learning_rate": 1.4540031398113335e-05,
7008
+ "loss": 0.7747,
7009
+ "step": 1000
7010
+ },
7011
+ {
7012
+ "epoch": 0.006653351102189757,
7013
+ "grad_norm": 0.31304219365119934,
7014
+ "learning_rate": 1.4456551983514333e-05,
7015
+ "loss": 0.9119,
7016
+ "step": 1001
7017
+ },
7018
+ {
7019
+ "epoch": 0.0066599978065875485,
7020
+ "grad_norm": 0.6188201308250427,
7021
+ "learning_rate": 1.4373272383572028e-05,
7022
+ "loss": 0.7513,
7023
+ "step": 1002
7024
+ },
7025
+ {
7026
+ "epoch": 0.006666644510985341,
7027
+ "grad_norm": 0.6836460828781128,
7028
+ "learning_rate": 1.4290193066459457e-05,
7029
+ "loss": 0.944,
7030
+ "step": 1003
7031
+ },
7032
+ {
7033
+ "epoch": 0.006673291215383133,
7034
+ "grad_norm": 0.6879714131355286,
7035
+ "learning_rate": 1.4207314499223745e-05,
7036
+ "loss": 0.7964,
7037
+ "step": 1004
7038
+ },
7039
+ {
7040
+ "epoch": 0.0066799379197809245,
7041
+ "grad_norm": 0.5281482934951782,
7042
+ "learning_rate": 1.4124637147783432e-05,
7043
+ "loss": 0.8331,
7044
+ "step": 1005
7045
+ },
7046
+ {
7047
+ "epoch": 0.006686584624178716,
7048
+ "grad_norm": 0.5473004579544067,
7049
+ "learning_rate": 1.404216147692598e-05,
7050
+ "loss": 0.9916,
7051
+ "step": 1006
7052
+ },
7053
+ {
7054
+ "epoch": 0.006693231328576509,
7055
+ "grad_norm": 0.6183127760887146,
7056
+ "learning_rate": 1.395988795030495e-05,
7057
+ "loss": 0.6854,
7058
+ "step": 1007
7059
+ },
7060
+ {
7061
+ "epoch": 0.006699878032974301,
7062
+ "grad_norm": 0.5756447911262512,
7063
+ "learning_rate": 1.3877817030437568e-05,
7064
+ "loss": 0.7835,
7065
+ "step": 1008
7066
+ },
7067
+ {
7068
+ "epoch": 0.006706524737372092,
7069
+ "grad_norm": 0.5753706693649292,
7070
+ "learning_rate": 1.3795949178702033e-05,
7071
+ "loss": 1.0322,
7072
+ "step": 1009
7073
+ },
7074
+ {
7075
+ "epoch": 0.006713171441769884,
7076
+ "grad_norm": 0.6262528300285339,
7077
+ "learning_rate": 1.371428485533498e-05,
7078
+ "loss": 0.7982,
7079
+ "step": 1010
7080
+ },
7081
+ {
7082
+ "epoch": 0.006719818146167677,
7083
+ "grad_norm": 0.6056203246116638,
7084
+ "learning_rate": 1.3632824519428889e-05,
7085
+ "loss": 0.9525,
7086
+ "step": 1011
7087
+ },
7088
+ {
7089
+ "epoch": 0.0067264648505654685,
7090
+ "grad_norm": 0.6044523119926453,
7091
+ "learning_rate": 1.3551568628929434e-05,
7092
+ "loss": 0.8489,
7093
+ "step": 1012
7094
+ },
7095
+ {
7096
+ "epoch": 0.00673311155496326,
7097
+ "grad_norm": 1.2201472520828247,
7098
+ "learning_rate": 1.3470517640632969e-05,
7099
+ "loss": 1.0784,
7100
+ "step": 1013
7101
+ },
7102
+ {
7103
+ "epoch": 0.006739758259361052,
7104
+ "grad_norm": 0.5861047506332397,
7105
+ "learning_rate": 1.3389672010183984e-05,
7106
+ "loss": 0.8827,
7107
+ "step": 1014
7108
+ },
7109
+ {
7110
+ "epoch": 0.0067464049637588445,
7111
+ "grad_norm": 0.8151621222496033,
7112
+ "learning_rate": 1.3309032192072463e-05,
7113
+ "loss": 0.9368,
7114
+ "step": 1015
7115
+ },
7116
+ {
7117
+ "epoch": 0.006753051668156636,
7118
+ "grad_norm": 0.6700717806816101,
7119
+ "learning_rate": 1.3228598639631418e-05,
7120
+ "loss": 0.8357,
7121
+ "step": 1016
7122
+ },
7123
+ {
7124
+ "epoch": 0.006759698372554428,
7125
+ "grad_norm": 0.9705390334129333,
7126
+ "learning_rate": 1.3148371805034253e-05,
7127
+ "loss": 0.8453,
7128
+ "step": 1017
7129
+ },
7130
+ {
7131
+ "epoch": 0.00676634507695222,
7132
+ "grad_norm": 0.7800853252410889,
7133
+ "learning_rate": 1.3068352139292312e-05,
7134
+ "loss": 0.728,
7135
+ "step": 1018
7136
+ },
7137
+ {
7138
+ "epoch": 0.006772991781350012,
7139
+ "grad_norm": 0.7995185852050781,
7140
+ "learning_rate": 1.2988540092252266e-05,
7141
+ "loss": 0.9883,
7142
+ "step": 1019
7143
+ },
7144
+ {
7145
+ "epoch": 0.006779638485747804,
7146
+ "grad_norm": 0.7061491012573242,
7147
+ "learning_rate": 1.29089361125936e-05,
7148
+ "loss": 0.7797,
7149
+ "step": 1020
7150
+ },
7151
+ {
7152
+ "epoch": 0.006786285190145596,
7153
+ "grad_norm": 0.926814079284668,
7154
+ "learning_rate": 1.2829540647826149e-05,
7155
+ "loss": 0.7926,
7156
+ "step": 1021
7157
+ },
7158
+ {
7159
+ "epoch": 0.006792931894543388,
7160
+ "grad_norm": 0.8915033340454102,
7161
+ "learning_rate": 1.275035414428753e-05,
7162
+ "loss": 0.9411,
7163
+ "step": 1022
7164
+ },
7165
+ {
7166
+ "epoch": 0.00679957859894118,
7167
+ "grad_norm": 1.2160683870315552,
7168
+ "learning_rate": 1.2671377047140625e-05,
7169
+ "loss": 0.8545,
7170
+ "step": 1023
7171
+ },
7172
+ {
7173
+ "epoch": 0.006806225303338972,
7174
+ "grad_norm": 0.8952360153198242,
7175
+ "learning_rate": 1.2592609800371086e-05,
7176
+ "loss": 0.9481,
7177
+ "step": 1024
7178
+ },
7179
+ {
7180
+ "epoch": 0.006812872007736764,
7181
+ "grad_norm": 0.7336769700050354,
7182
+ "learning_rate": 1.251405284678488e-05,
7183
+ "loss": 0.7532,
7184
+ "step": 1025
7185
+ },
7186
+ {
7187
+ "epoch": 0.006819518712134556,
7188
+ "grad_norm": 0.9183105230331421,
7189
+ "learning_rate": 1.2435706628005767e-05,
7190
+ "loss": 0.8165,
7191
+ "step": 1026
7192
+ },
7193
+ {
7194
+ "epoch": 0.006826165416532348,
7195
+ "grad_norm": 0.7961068153381348,
7196
+ "learning_rate": 1.2357571584472794e-05,
7197
+ "loss": 0.8613,
7198
+ "step": 1027
7199
+ },
7200
+ {
7201
+ "epoch": 0.00683281212093014,
7202
+ "grad_norm": 0.920566737651825,
7203
+ "learning_rate": 1.227964815543784e-05,
7204
+ "loss": 0.9217,
7205
+ "step": 1028
7206
+ },
7207
+ {
7208
+ "epoch": 0.0068394588253279315,
7209
+ "grad_norm": 0.9314897656440735,
7210
+ "learning_rate": 1.2201936778963192e-05,
7211
+ "loss": 0.7957,
7212
+ "step": 1029
7213
+ },
7214
+ {
7215
+ "epoch": 0.006846105529725724,
7216
+ "grad_norm": 1.002401351928711,
7217
+ "learning_rate": 1.2124437891918993e-05,
7218
+ "loss": 0.8704,
7219
+ "step": 1030
7220
+ },
7221
+ {
7222
+ "epoch": 0.006852752234123516,
7223
+ "grad_norm": 1.2262808084487915,
7224
+ "learning_rate": 1.2047151929980888e-05,
7225
+ "loss": 0.8852,
7226
+ "step": 1031
7227
+ },
7228
+ {
7229
+ "epoch": 0.006859398938521308,
7230
+ "grad_norm": 1.0216968059539795,
7231
+ "learning_rate": 1.1970079327627453e-05,
7232
+ "loss": 0.7399,
7233
+ "step": 1032
7234
+ },
7235
+ {
7236
+ "epoch": 0.006866045642919099,
7237
+ "grad_norm": 1.1232874393463135,
7238
+ "learning_rate": 1.1893220518137882e-05,
7239
+ "loss": 0.7159,
7240
+ "step": 1033
7241
+ },
7242
+ {
7243
+ "epoch": 0.006872692347316892,
7244
+ "grad_norm": 1.0752450227737427,
7245
+ "learning_rate": 1.1816575933589458e-05,
7246
+ "loss": 0.6177,
7247
+ "step": 1034
7248
+ },
7249
+ {
7250
+ "epoch": 0.006879339051714684,
7251
+ "grad_norm": 0.911821722984314,
7252
+ "learning_rate": 1.174014600485514e-05,
7253
+ "loss": 0.7266,
7254
+ "step": 1035
7255
+ },
7256
+ {
7257
+ "epoch": 0.006885985756112475,
7258
+ "grad_norm": 1.2482151985168457,
7259
+ "learning_rate": 1.1663931161601188e-05,
7260
+ "loss": 0.8125,
7261
+ "step": 1036
7262
+ },
7263
+ {
7264
+ "epoch": 0.006892632460510267,
7265
+ "grad_norm": 1.0357885360717773,
7266
+ "learning_rate": 1.1587931832284726e-05,
7267
+ "loss": 0.7536,
7268
+ "step": 1037
7269
+ },
7270
+ {
7271
+ "epoch": 0.00689927916490806,
7272
+ "grad_norm": 1.0621405839920044,
7273
+ "learning_rate": 1.1512148444151283e-05,
7274
+ "loss": 0.6836,
7275
+ "step": 1038
7276
+ },
7277
+ {
7278
+ "epoch": 0.0069059258693058515,
7279
+ "grad_norm": 1.1723105907440186,
7280
+ "learning_rate": 1.1436581423232434e-05,
7281
+ "loss": 0.6806,
7282
+ "step": 1039
7283
+ },
7284
+ {
7285
+ "epoch": 0.006912572573703643,
7286
+ "grad_norm": 1.1845663785934448,
7287
+ "learning_rate": 1.1361231194343436e-05,
7288
+ "loss": 0.815,
7289
+ "step": 1040
7290
+ },
7291
+ {
7292
+ "epoch": 0.006919219278101435,
7293
+ "grad_norm": 1.6141482591629028,
7294
+ "learning_rate": 1.1286098181080795e-05,
7295
+ "loss": 0.9749,
7296
+ "step": 1041
7297
+ },
7298
+ {
7299
+ "epoch": 0.006925865982499228,
7300
+ "grad_norm": 1.34913969039917,
7301
+ "learning_rate": 1.1211182805819881e-05,
7302
+ "loss": 0.6698,
7303
+ "step": 1042
7304
+ },
7305
+ {
7306
+ "epoch": 0.006932512686897019,
7307
+ "grad_norm": 1.377968668937683,
7308
+ "learning_rate": 1.1136485489712556e-05,
7309
+ "loss": 0.5934,
7310
+ "step": 1043
7311
+ },
7312
+ {
7313
+ "epoch": 0.006939159391294811,
7314
+ "grad_norm": 1.7394827604293823,
7315
+ "learning_rate": 1.1062006652684864e-05,
7316
+ "loss": 0.7956,
7317
+ "step": 1044
7318
+ },
7319
+ {
7320
+ "epoch": 0.006945806095692603,
7321
+ "grad_norm": 1.4188005924224854,
7322
+ "learning_rate": 1.0987746713434576e-05,
7323
+ "loss": 0.7873,
7324
+ "step": 1045
7325
+ },
7326
+ {
7327
+ "epoch": 0.0069524528000903954,
7328
+ "grad_norm": 1.7469269037246704,
7329
+ "learning_rate": 1.0913706089428932e-05,
7330
+ "loss": 1.0878,
7331
+ "step": 1046
7332
+ },
7333
+ {
7334
+ "epoch": 0.006959099504488187,
7335
+ "grad_norm": 2.151268482208252,
7336
+ "learning_rate": 1.0839885196902194e-05,
7337
+ "loss": 1.1574,
7338
+ "step": 1047
7339
+ },
7340
+ {
7341
+ "epoch": 0.006965746208885979,
7342
+ "grad_norm": 2.0133984088897705,
7343
+ "learning_rate": 1.0766284450853415e-05,
7344
+ "loss": 0.716,
7345
+ "step": 1048
7346
+ },
7347
+ {
7348
+ "epoch": 0.006972392913283771,
7349
+ "grad_norm": 3.2061398029327393,
7350
+ "learning_rate": 1.0692904265044012e-05,
7351
+ "loss": 0.915,
7352
+ "step": 1049
7353
+ },
7354
+ {
7355
+ "epoch": 0.006979039617681563,
7356
+ "grad_norm": 2.7918288707733154,
7357
+ "learning_rate": 1.0619745051995472e-05,
7358
+ "loss": 1.219,
7359
+ "step": 1050
7360
+ },
7361
+ {
7362
+ "epoch": 0.006985686322079355,
7363
+ "grad_norm": 0.3655790686607361,
7364
+ "learning_rate": 1.0546807222987071e-05,
7365
+ "loss": 1.0736,
7366
+ "step": 1051
7367
+ },
7368
+ {
7369
+ "epoch": 0.006992333026477147,
7370
+ "grad_norm": 0.4837401509284973,
7371
+ "learning_rate": 1.047409118805353e-05,
7372
+ "loss": 0.9356,
7373
+ "step": 1052
7374
+ },
7375
+ {
7376
+ "epoch": 0.006998979730874939,
7377
+ "grad_norm": 0.45560112595558167,
7378
+ "learning_rate": 1.0401597355982678e-05,
7379
+ "loss": 0.8369,
7380
+ "step": 1053
7381
+ },
7382
+ {
7383
+ "epoch": 0.007005626435272731,
7384
+ "grad_norm": 0.5554627180099487,
7385
+ "learning_rate": 1.03293261343132e-05,
7386
+ "loss": 0.8466,
7387
+ "step": 1054
7388
+ },
7389
+ {
7390
+ "epoch": 0.007012273139670523,
7391
+ "grad_norm": 0.7247781753540039,
7392
+ "learning_rate": 1.0257277929332332e-05,
7393
+ "loss": 1.0188,
7394
+ "step": 1055
7395
+ },
7396
+ {
7397
+ "epoch": 0.007018919844068315,
7398
+ "grad_norm": 0.5876094102859497,
7399
+ "learning_rate": 1.0185453146073604e-05,
7400
+ "loss": 0.8758,
7401
+ "step": 1056
7402
+ },
7403
+ {
7404
+ "epoch": 0.007025566548466107,
7405
+ "grad_norm": 0.5293012857437134,
7406
+ "learning_rate": 1.0113852188314493e-05,
7407
+ "loss": 0.8288,
7408
+ "step": 1057
7409
+ },
7410
+ {
7411
+ "epoch": 0.007032213252863899,
7412
+ "grad_norm": 0.5751774311065674,
7413
+ "learning_rate": 1.0042475458574202e-05,
7414
+ "loss": 0.8582,
7415
+ "step": 1058
7416
+ },
7417
+ {
7418
+ "epoch": 0.007038859957261691,
7419
+ "grad_norm": 0.7522995471954346,
7420
+ "learning_rate": 9.971323358111434e-06,
7421
+ "loss": 0.7952,
7422
+ "step": 1059
7423
+ },
7424
+ {
7425
+ "epoch": 0.007045506661659482,
7426
+ "grad_norm": 0.6282753348350525,
7427
+ "learning_rate": 9.900396286922026e-06,
7428
+ "loss": 0.7768,
7429
+ "step": 1060
7430
+ },
7431
+ {
7432
+ "epoch": 0.007052153366057275,
7433
+ "grad_norm": 0.6144838333129883,
7434
+ "learning_rate": 9.829694643736836e-06,
7435
+ "loss": 0.7815,
7436
+ "step": 1061
7437
+ },
7438
+ {
7439
+ "epoch": 0.007058800070455067,
7440
+ "grad_norm": 0.6692332029342651,
7441
+ "learning_rate": 9.759218826019378e-06,
7442
+ "loss": 0.7859,
7443
+ "step": 1062
7444
+ },
7445
+ {
7446
+ "epoch": 0.0070654467748528585,
7447
+ "grad_norm": 0.8164696097373962,
7448
+ "learning_rate": 9.688969229963685e-06,
7449
+ "loss": 0.8053,
7450
+ "step": 1063
7451
+ },
7452
+ {
7453
+ "epoch": 0.00707209347925065,
7454
+ "grad_norm": 0.7802616953849792,
7455
+ "learning_rate": 9.618946250492011e-06,
7456
+ "loss": 0.93,
7457
+ "step": 1064
7458
+ },
7459
+ {
7460
+ "epoch": 0.007078740183648443,
7461
+ "grad_norm": 0.7973951697349548,
7462
+ "learning_rate": 9.549150281252633e-06,
7463
+ "loss": 0.931,
7464
+ "step": 1065
7465
+ },
7466
+ {
7467
+ "epoch": 0.007085386888046235,
7468
+ "grad_norm": 0.6746591925621033,
7469
+ "learning_rate": 9.479581714617668e-06,
7470
+ "loss": 0.9751,
7471
+ "step": 1066
7472
+ },
7473
+ {
7474
+ "epoch": 0.007092033592444026,
7475
+ "grad_norm": 0.8076299428939819,
7476
+ "learning_rate": 9.410240941680859e-06,
7477
+ "loss": 0.7754,
7478
+ "step": 1067
7479
+ },
7480
+ {
7481
+ "epoch": 0.007098680296841818,
7482
+ "grad_norm": 2.197793483734131,
7483
+ "learning_rate": 9.341128352255313e-06,
7484
+ "loss": 0.8414,
7485
+ "step": 1068
7486
+ },
7487
+ {
7488
+ "epoch": 0.007105327001239611,
7489
+ "grad_norm": 0.7308064699172974,
7490
+ "learning_rate": 9.272244334871377e-06,
7491
+ "loss": 0.7137,
7492
+ "step": 1069
7493
+ },
7494
+ {
7495
+ "epoch": 0.007111973705637402,
7496
+ "grad_norm": 0.8364386558532715,
7497
+ "learning_rate": 9.203589276774439e-06,
7498
+ "loss": 0.858,
7499
+ "step": 1070
7500
+ },
7501
+ {
7502
+ "epoch": 0.007118620410035194,
7503
+ "grad_norm": 0.8338163495063782,
7504
+ "learning_rate": 9.135163563922766e-06,
7505
+ "loss": 0.709,
7506
+ "step": 1071
7507
+ },
7508
+ {
7509
+ "epoch": 0.007125267114432986,
7510
+ "grad_norm": 0.7769277691841125,
7511
+ "learning_rate": 9.06696758098528e-06,
7512
+ "loss": 0.7744,
7513
+ "step": 1072
7514
+ },
7515
+ {
7516
+ "epoch": 0.0071319138188307785,
7517
+ "grad_norm": 0.8195592164993286,
7518
+ "learning_rate": 8.999001711339434e-06,
7519
+ "loss": 0.8514,
7520
+ "step": 1073
7521
+ },
7522
+ {
7523
+ "epoch": 0.00713856052322857,
7524
+ "grad_norm": 0.7981391549110413,
7525
+ "learning_rate": 8.931266337069083e-06,
7526
+ "loss": 0.7724,
7527
+ "step": 1074
7528
+ },
7529
+ {
7530
+ "epoch": 0.007145207227626362,
7531
+ "grad_norm": 1.2387161254882812,
7532
+ "learning_rate": 8.86376183896226e-06,
7533
+ "loss": 0.6626,
7534
+ "step": 1075
7535
+ },
7536
+ {
7537
+ "epoch": 0.007151853932024154,
7538
+ "grad_norm": 1.1157495975494385,
7539
+ "learning_rate": 8.796488596509133e-06,
7540
+ "loss": 0.643,
7541
+ "step": 1076
7542
+ },
7543
+ {
7544
+ "epoch": 0.007158500636421946,
7545
+ "grad_norm": 0.8519596457481384,
7546
+ "learning_rate": 8.72944698789977e-06,
7547
+ "loss": 0.6917,
7548
+ "step": 1077
7549
+ },
7550
+ {
7551
+ "epoch": 0.007165147340819738,
7552
+ "grad_norm": 1.1191961765289307,
7553
+ "learning_rate": 8.66263739002211e-06,
7554
+ "loss": 0.659,
7555
+ "step": 1078
7556
+ },
7557
+ {
7558
+ "epoch": 0.00717179404521753,
7559
+ "grad_norm": 0.961754322052002,
7560
+ "learning_rate": 8.596060178459758e-06,
7561
+ "loss": 0.9327,
7562
+ "step": 1079
7563
+ },
7564
+ {
7565
+ "epoch": 0.007178440749615322,
7566
+ "grad_norm": 1.1048482656478882,
7567
+ "learning_rate": 8.529715727489912e-06,
7568
+ "loss": 0.8056,
7569
+ "step": 1080
7570
+ },
7571
+ {
7572
+ "epoch": 0.007185087454013114,
7573
+ "grad_norm": 0.9219740033149719,
7574
+ "learning_rate": 8.463604410081293e-06,
7575
+ "loss": 0.6779,
7576
+ "step": 1081
7577
+ },
7578
+ {
7579
+ "epoch": 0.007191734158410906,
7580
+ "grad_norm": 1.114214539527893,
7581
+ "learning_rate": 8.397726597892008e-06,
7582
+ "loss": 0.9183,
7583
+ "step": 1082
7584
+ },
7585
+ {
7586
+ "epoch": 0.007198380862808698,
7587
+ "grad_norm": 0.9252001643180847,
7588
+ "learning_rate": 8.332082661267443e-06,
7589
+ "loss": 0.5787,
7590
+ "step": 1083
7591
+ },
7592
+ {
7593
+ "epoch": 0.00720502756720649,
7594
+ "grad_norm": 1.4290266036987305,
7595
+ "learning_rate": 8.266672969238216e-06,
7596
+ "loss": 0.7914,
7597
+ "step": 1084
7598
+ },
7599
+ {
7600
+ "epoch": 0.007211674271604282,
7601
+ "grad_norm": 1.0707231760025024,
7602
+ "learning_rate": 8.201497889518073e-06,
7603
+ "loss": 0.6836,
7604
+ "step": 1085
7605
+ },
7606
+ {
7607
+ "epoch": 0.007218320976002074,
7608
+ "grad_norm": 1.3955053091049194,
7609
+ "learning_rate": 8.136557788501903e-06,
7610
+ "loss": 0.5338,
7611
+ "step": 1086
7612
+ },
7613
+ {
7614
+ "epoch": 0.0072249676803998655,
7615
+ "grad_norm": 1.097495675086975,
7616
+ "learning_rate": 8.071853031263554e-06,
7617
+ "loss": 0.7974,
7618
+ "step": 1087
7619
+ },
7620
+ {
7621
+ "epoch": 0.007231614384797658,
7622
+ "grad_norm": 1.1199660301208496,
7623
+ "learning_rate": 8.007383981553857e-06,
7624
+ "loss": 0.8519,
7625
+ "step": 1088
7626
+ },
7627
+ {
7628
+ "epoch": 0.00723826108919545,
7629
+ "grad_norm": 0.9631024599075317,
7630
+ "learning_rate": 7.943151001798554e-06,
7631
+ "loss": 0.5342,
7632
+ "step": 1089
7633
+ },
7634
+ {
7635
+ "epoch": 0.0072449077935932416,
7636
+ "grad_norm": 1.3137375116348267,
7637
+ "learning_rate": 7.879154453096304e-06,
7638
+ "loss": 0.9322,
7639
+ "step": 1090
7640
+ },
7641
+ {
7642
+ "epoch": 0.007251554497991033,
7643
+ "grad_norm": 1.220885992050171,
7644
+ "learning_rate": 7.81539469521661e-06,
7645
+ "loss": 0.8128,
7646
+ "step": 1091
7647
+ },
7648
+ {
7649
+ "epoch": 0.007258201202388826,
7650
+ "grad_norm": 1.5835233926773071,
7651
+ "learning_rate": 7.751872086597783e-06,
7652
+ "loss": 0.7819,
7653
+ "step": 1092
7654
+ },
7655
+ {
7656
+ "epoch": 0.007264847906786618,
7657
+ "grad_norm": 1.3007620573043823,
7658
+ "learning_rate": 7.688586984344992e-06,
7659
+ "loss": 0.8538,
7660
+ "step": 1093
7661
+ },
7662
+ {
7663
+ "epoch": 0.007271494611184409,
7664
+ "grad_norm": 1.304919719696045,
7665
+ "learning_rate": 7.6255397442281825e-06,
7666
+ "loss": 0.5072,
7667
+ "step": 1094
7668
+ },
7669
+ {
7670
+ "epoch": 0.007278141315582201,
7671
+ "grad_norm": 1.584822654724121,
7672
+ "learning_rate": 7.562730720680112e-06,
7673
+ "loss": 0.983,
7674
+ "step": 1095
7675
+ },
7676
+ {
7677
+ "epoch": 0.007284788019979994,
7678
+ "grad_norm": 1.5479097366333008,
7679
+ "learning_rate": 7.500160266794371e-06,
7680
+ "loss": 0.9376,
7681
+ "step": 1096
7682
+ },
7683
+ {
7684
+ "epoch": 0.0072914347243777855,
7685
+ "grad_norm": 1.8360904455184937,
7686
+ "learning_rate": 7.437828734323393e-06,
7687
+ "loss": 1.0823,
7688
+ "step": 1097
7689
+ },
7690
+ {
7691
+ "epoch": 0.007298081428775577,
7692
+ "grad_norm": 1.8177344799041748,
7693
+ "learning_rate": 7.375736473676442e-06,
7694
+ "loss": 0.704,
7695
+ "step": 1098
7696
+ },
7697
+ {
7698
+ "epoch": 0.007304728133173369,
7699
+ "grad_norm": 2.0094518661499023,
7700
+ "learning_rate": 7.3138838339176675e-06,
7701
+ "loss": 0.8205,
7702
+ "step": 1099
7703
+ },
7704
+ {
7705
+ "epoch": 0.0073113748375711616,
7706
+ "grad_norm": 3.6242754459381104,
7707
+ "learning_rate": 7.252271162764129e-06,
7708
+ "loss": 1.2131,
7709
+ "step": 1100
7710
+ },
7711
+ {
7712
+ "epoch": 0.007318021541968953,
7713
+ "grad_norm": 0.379312127828598,
7714
+ "learning_rate": 7.190898806583929e-06,
7715
+ "loss": 1.0036,
7716
+ "step": 1101
7717
+ },
7718
+ {
7719
+ "epoch": 0.007324668246366745,
7720
+ "grad_norm": 0.6471967697143555,
7721
+ "learning_rate": 7.1297671103941035e-06,
7722
+ "loss": 1.1373,
7723
+ "step": 1102
7724
+ },
7725
+ {
7726
+ "epoch": 0.007331314950764537,
7727
+ "grad_norm": 0.5435198545455933,
7728
+ "learning_rate": 7.068876417858811e-06,
7729
+ "loss": 0.7672,
7730
+ "step": 1103
7731
+ },
7732
+ {
7733
+ "epoch": 0.007337961655162329,
7734
+ "grad_norm": 0.6249924898147583,
7735
+ "learning_rate": 7.008227071287338e-06,
7736
+ "loss": 0.9681,
7737
+ "step": 1104
7738
+ },
7739
+ {
7740
+ "epoch": 0.007344608359560121,
7741
+ "grad_norm": 0.8528724312782288,
7742
+ "learning_rate": 6.947819411632223e-06,
7743
+ "loss": 0.848,
7744
+ "step": 1105
7745
+ },
7746
+ {
7747
+ "epoch": 0.007351255063957913,
7748
+ "grad_norm": 0.6179990768432617,
7749
+ "learning_rate": 6.887653778487307e-06,
7750
+ "loss": 0.901,
7751
+ "step": 1106
7752
+ },
7753
+ {
7754
+ "epoch": 0.007357901768355705,
7755
+ "grad_norm": 0.5665982365608215,
7756
+ "learning_rate": 6.827730510085817e-06,
7757
+ "loss": 0.8572,
7758
+ "step": 1107
7759
+ },
7760
+ {
7761
+ "epoch": 0.007364548472753497,
7762
+ "grad_norm": 0.5486406087875366,
7763
+ "learning_rate": 6.7680499432984654e-06,
7764
+ "loss": 0.5723,
7765
+ "step": 1108
7766
+ },
7767
+ {
7768
+ "epoch": 0.007371195177151289,
7769
+ "grad_norm": 0.5960477590560913,
7770
+ "learning_rate": 6.708612413631615e-06,
7771
+ "loss": 0.8061,
7772
+ "step": 1109
7773
+ },
7774
+ {
7775
+ "epoch": 0.007377841881549081,
7776
+ "grad_norm": 0.7446190714836121,
7777
+ "learning_rate": 6.649418255225298e-06,
7778
+ "loss": 0.8753,
7779
+ "step": 1110
7780
+ },
7781
+ {
7782
+ "epoch": 0.007384488585946873,
7783
+ "grad_norm": 0.6754137873649597,
7784
+ "learning_rate": 6.590467800851419e-06,
7785
+ "loss": 0.7474,
7786
+ "step": 1111
7787
+ },
7788
+ {
7789
+ "epoch": 0.007391135290344665,
7790
+ "grad_norm": 0.7214033603668213,
7791
+ "learning_rate": 6.531761381911827e-06,
7792
+ "loss": 0.8932,
7793
+ "step": 1112
7794
+ },
7795
+ {
7796
+ "epoch": 0.007397781994742457,
7797
+ "grad_norm": 0.6419174075126648,
7798
+ "learning_rate": 6.473299328436499e-06,
7799
+ "loss": 0.7526,
7800
+ "step": 1113
7801
+ },
7802
+ {
7803
+ "epoch": 0.0074044286991402485,
7804
+ "grad_norm": 0.6379873156547546,
7805
+ "learning_rate": 6.415081969081649e-06,
7806
+ "loss": 0.7635,
7807
+ "step": 1114
7808
+ },
7809
+ {
7810
+ "epoch": 0.007411075403538041,
7811
+ "grad_norm": 0.7169990539550781,
7812
+ "learning_rate": 6.357109631127889e-06,
7813
+ "loss": 0.7471,
7814
+ "step": 1115
7815
+ },
7816
+ {
7817
+ "epoch": 0.007417722107935833,
7818
+ "grad_norm": 0.64534592628479,
7819
+ "learning_rate": 6.2993826404783965e-06,
7820
+ "loss": 1.0755,
7821
+ "step": 1116
7822
+ },
7823
+ {
7824
+ "epoch": 0.007424368812333625,
7825
+ "grad_norm": 0.6701549291610718,
7826
+ "learning_rate": 6.241901321657112e-06,
7827
+ "loss": 0.9706,
7828
+ "step": 1117
7829
+ },
7830
+ {
7831
+ "epoch": 0.007431015516731416,
7832
+ "grad_norm": 0.7817533612251282,
7833
+ "learning_rate": 6.184665997806832e-06,
7834
+ "loss": 1.0468,
7835
+ "step": 1118
7836
+ },
7837
+ {
7838
+ "epoch": 0.007437662221129209,
7839
+ "grad_norm": 0.6312013864517212,
7840
+ "learning_rate": 6.127676990687453e-06,
7841
+ "loss": 0.9234,
7842
+ "step": 1119
7843
+ },
7844
+ {
7845
+ "epoch": 0.007444308925527001,
7846
+ "grad_norm": 0.7704412937164307,
7847
+ "learning_rate": 6.07093462067419e-06,
7848
+ "loss": 0.8273,
7849
+ "step": 1120
7850
+ },
7851
+ {
7852
+ "epoch": 0.0074509556299247924,
7853
+ "grad_norm": 0.9202284216880798,
7854
+ "learning_rate": 6.014439206755706e-06,
7855
+ "loss": 0.6653,
7856
+ "step": 1121
7857
+ },
7858
+ {
7859
+ "epoch": 0.007457602334322584,
7860
+ "grad_norm": 0.922299861907959,
7861
+ "learning_rate": 5.958191066532354e-06,
7862
+ "loss": 0.9426,
7863
+ "step": 1122
7864
+ },
7865
+ {
7866
+ "epoch": 0.007464249038720377,
7867
+ "grad_norm": 0.8126717209815979,
7868
+ "learning_rate": 5.902190516214384e-06,
7869
+ "loss": 1.0114,
7870
+ "step": 1123
7871
+ },
7872
+ {
7873
+ "epoch": 0.0074708957431181685,
7874
+ "grad_norm": 1.1028474569320679,
7875
+ "learning_rate": 5.846437870620192e-06,
7876
+ "loss": 0.891,
7877
+ "step": 1124
7878
+ },
7879
+ {
7880
+ "epoch": 0.00747754244751596,
7881
+ "grad_norm": 0.8131560683250427,
7882
+ "learning_rate": 5.79093344317449e-06,
7883
+ "loss": 0.7927,
7884
+ "step": 1125
7885
+ },
7886
+ {
7887
+ "epoch": 0.007484189151913752,
7888
+ "grad_norm": 0.8165668845176697,
7889
+ "learning_rate": 5.735677545906626e-06,
7890
+ "loss": 0.7592,
7891
+ "step": 1126
7892
+ },
7893
+ {
7894
+ "epoch": 0.007490835856311545,
7895
+ "grad_norm": 0.9261493682861328,
7896
+ "learning_rate": 5.680670489448742e-06,
7897
+ "loss": 0.7585,
7898
+ "step": 1127
7899
+ },
7900
+ {
7901
+ "epoch": 0.007497482560709336,
7902
+ "grad_norm": 0.8316916823387146,
7903
+ "learning_rate": 5.625912583034115e-06,
7904
+ "loss": 0.7128,
7905
+ "step": 1128
7906
+ },
7907
+ {
7908
+ "epoch": 0.007504129265107128,
7909
+ "grad_norm": 0.9080417156219482,
7910
+ "learning_rate": 5.5714041344953445e-06,
7911
+ "loss": 0.663,
7912
+ "step": 1129
7913
+ },
7914
+ {
7915
+ "epoch": 0.00751077596950492,
7916
+ "grad_norm": 0.9159788489341736,
7917
+ "learning_rate": 5.51714545026264e-06,
7918
+ "loss": 0.8107,
7919
+ "step": 1130
7920
+ },
7921
+ {
7922
+ "epoch": 0.0075174226739027124,
7923
+ "grad_norm": 1.1240578889846802,
7924
+ "learning_rate": 5.463136835362148e-06,
7925
+ "loss": 0.6353,
7926
+ "step": 1131
7927
+ },
7928
+ {
7929
+ "epoch": 0.007524069378300504,
7930
+ "grad_norm": 1.2321254014968872,
7931
+ "learning_rate": 5.409378593414194e-06,
7932
+ "loss": 0.995,
7933
+ "step": 1132
7934
+ },
7935
+ {
7936
+ "epoch": 0.007530716082698296,
7937
+ "grad_norm": 0.9713672399520874,
7938
+ "learning_rate": 5.355871026631554e-06,
7939
+ "loss": 0.7501,
7940
+ "step": 1133
7941
+ },
7942
+ {
7943
+ "epoch": 0.007537362787096088,
7944
+ "grad_norm": 1.0002257823944092,
7945
+ "learning_rate": 5.302614435817793e-06,
7946
+ "loss": 0.8235,
7947
+ "step": 1134
7948
+ },
7949
+ {
7950
+ "epoch": 0.00754400949149388,
7951
+ "grad_norm": 1.2293847799301147,
7952
+ "learning_rate": 5.249609120365578e-06,
7953
+ "loss": 0.731,
7954
+ "step": 1135
7955
+ },
7956
+ {
7957
+ "epoch": 0.007550656195891672,
7958
+ "grad_norm": 0.8931113481521606,
7959
+ "learning_rate": 5.196855378254989e-06,
7960
+ "loss": 0.7542,
7961
+ "step": 1136
7962
+ },
7963
+ {
7964
+ "epoch": 0.007557302900289464,
7965
+ "grad_norm": 1.4215387105941772,
7966
+ "learning_rate": 5.144353506051797e-06,
7967
+ "loss": 0.751,
7968
+ "step": 1137
7969
+ },
7970
+ {
7971
+ "epoch": 0.007563949604687256,
7972
+ "grad_norm": 1.4619780778884888,
7973
+ "learning_rate": 5.0921037989058614e-06,
7974
+ "loss": 0.8514,
7975
+ "step": 1138
7976
+ },
7977
+ {
7978
+ "epoch": 0.007570596309085048,
7979
+ "grad_norm": 2.04518723487854,
7980
+ "learning_rate": 5.0401065505494445e-06,
7981
+ "loss": 1.0564,
7982
+ "step": 1139
7983
+ },
7984
+ {
7985
+ "epoch": 0.00757724301348284,
7986
+ "grad_norm": 1.1913663148880005,
7987
+ "learning_rate": 4.988362053295564e-06,
7988
+ "loss": 0.8242,
7989
+ "step": 1140
7990
+ },
7991
+ {
7992
+ "epoch": 0.007583889717880632,
7993
+ "grad_norm": 1.0685111284255981,
7994
+ "learning_rate": 4.9368705980363415e-06,
7995
+ "loss": 0.5443,
7996
+ "step": 1141
7997
+ },
7998
+ {
7999
+ "epoch": 0.007590536422278424,
8000
+ "grad_norm": 1.0553430318832397,
8001
+ "learning_rate": 4.885632474241347e-06,
8002
+ "loss": 0.624,
8003
+ "step": 1142
8004
+ },
8005
+ {
8006
+ "epoch": 0.007597183126676216,
8007
+ "grad_norm": 1.1717983484268188,
8008
+ "learning_rate": 4.834647969956052e-06,
8009
+ "loss": 0.7475,
8010
+ "step": 1143
8011
+ },
8012
+ {
8013
+ "epoch": 0.007603829831074008,
8014
+ "grad_norm": 1.592492938041687,
8015
+ "learning_rate": 4.783917371800101e-06,
8016
+ "loss": 0.7852,
8017
+ "step": 1144
8018
+ },
8019
+ {
8020
+ "epoch": 0.007610476535471799,
8021
+ "grad_norm": 1.7482496500015259,
8022
+ "learning_rate": 4.733440964965791e-06,
8023
+ "loss": 1.0631,
8024
+ "step": 1145
8025
+ },
8026
+ {
8027
+ "epoch": 0.007617123239869592,
8028
+ "grad_norm": 1.701235055923462,
8029
+ "learning_rate": 4.683219033216402e-06,
8030
+ "loss": 0.9337,
8031
+ "step": 1146
8032
+ },
8033
+ {
8034
+ "epoch": 0.007623769944267384,
8035
+ "grad_norm": 2.070103168487549,
8036
+ "learning_rate": 4.633251858884657e-06,
8037
+ "loss": 0.814,
8038
+ "step": 1147
8039
+ },
8040
+ {
8041
+ "epoch": 0.0076304166486651755,
8042
+ "grad_norm": 2.205002784729004,
8043
+ "learning_rate": 4.583539722871094e-06,
8044
+ "loss": 0.7706,
8045
+ "step": 1148
8046
+ },
8047
+ {
8048
+ "epoch": 0.007637063353062967,
8049
+ "grad_norm": 2.1740975379943848,
8050
+ "learning_rate": 4.534082904642495e-06,
8051
+ "loss": 0.8495,
8052
+ "step": 1149
8053
+ },
8054
+ {
8055
+ "epoch": 0.00764371005746076,
8056
+ "grad_norm": 3.0469541549682617,
8057
+ "learning_rate": 4.484881682230341e-06,
8058
+ "loss": 0.7312,
8059
+ "step": 1150
8060
+ },
8061
+ {
8062
+ "epoch": 0.007650356761858552,
8063
+ "grad_norm": 0.3347352147102356,
8064
+ "learning_rate": 4.435936332229229e-06,
8065
+ "loss": 0.8578,
8066
+ "step": 1151
8067
+ },
8068
+ {
8069
+ "epoch": 0.007657003466256343,
8070
+ "grad_norm": 0.734880805015564,
8071
+ "learning_rate": 4.3872471297952965e-06,
8072
+ "loss": 0.9773,
8073
+ "step": 1152
8074
+ },
8075
+ {
8076
+ "epoch": 0.007663650170654135,
8077
+ "grad_norm": 0.7428154349327087,
8078
+ "learning_rate": 4.3388143486447045e-06,
8079
+ "loss": 0.8733,
8080
+ "step": 1153
8081
+ },
8082
+ {
8083
+ "epoch": 0.007670296875051928,
8084
+ "grad_norm": 0.5158607363700867,
8085
+ "learning_rate": 4.290638261052099e-06,
8086
+ "loss": 0.9492,
8087
+ "step": 1154
8088
+ },
8089
+ {
8090
+ "epoch": 0.007676943579449719,
8091
+ "grad_norm": 0.5684289932250977,
8092
+ "learning_rate": 4.242719137849077e-06,
8093
+ "loss": 0.8136,
8094
+ "step": 1155
8095
+ },
8096
+ {
8097
+ "epoch": 0.007683590283847511,
8098
+ "grad_norm": 0.7612115144729614,
8099
+ "learning_rate": 4.1950572484226345e-06,
8100
+ "loss": 0.914,
8101
+ "step": 1156
8102
+ },
8103
+ {
8104
+ "epoch": 0.007690236988245303,
8105
+ "grad_norm": 0.6157774925231934,
8106
+ "learning_rate": 4.147652860713685e-06,
8107
+ "loss": 0.947,
8108
+ "step": 1157
8109
+ },
8110
+ {
8111
+ "epoch": 0.0076968836926430955,
8112
+ "grad_norm": 0.7647441029548645,
8113
+ "learning_rate": 4.100506241215562e-06,
8114
+ "loss": 0.8584,
8115
+ "step": 1158
8116
+ },
8117
+ {
8118
+ "epoch": 0.007703530397040887,
8119
+ "grad_norm": 0.7151400446891785,
8120
+ "learning_rate": 4.0536176549724806e-06,
8121
+ "loss": 0.6786,
8122
+ "step": 1159
8123
+ },
8124
+ {
8125
+ "epoch": 0.007710177101438679,
8126
+ "grad_norm": 0.6203306913375854,
8127
+ "learning_rate": 4.00698736557808e-06,
8128
+ "loss": 0.9418,
8129
+ "step": 1160
8130
+ },
8131
+ {
8132
+ "epoch": 0.007716823805836471,
8133
+ "grad_norm": 0.7037209868431091,
8134
+ "learning_rate": 3.960615635173925e-06,
8135
+ "loss": 0.8577,
8136
+ "step": 1161
8137
+ },
8138
+ {
8139
+ "epoch": 0.007723470510234263,
8140
+ "grad_norm": 0.6116876006126404,
8141
+ "learning_rate": 3.914502724448061e-06,
8142
+ "loss": 0.9221,
8143
+ "step": 1162
8144
+ },
8145
+ {
8146
+ "epoch": 0.007730117214632055,
8147
+ "grad_norm": 0.8219679594039917,
8148
+ "learning_rate": 3.868648892633497e-06,
8149
+ "loss": 0.8342,
8150
+ "step": 1163
8151
+ },
8152
+ {
8153
+ "epoch": 0.007736763919029847,
8154
+ "grad_norm": 0.6384825110435486,
8155
+ "learning_rate": 3.823054397506781e-06,
8156
+ "loss": 0.8674,
8157
+ "step": 1164
8158
+ },
8159
+ {
8160
+ "epoch": 0.007743410623427639,
8161
+ "grad_norm": 0.6831299662590027,
8162
+ "learning_rate": 3.7777194953865667e-06,
8163
+ "loss": 0.7916,
8164
+ "step": 1165
8165
+ },
8166
+ {
8167
+ "epoch": 0.007750057327825431,
8168
+ "grad_norm": 0.7946675419807434,
8169
+ "learning_rate": 3.7326444411321547e-06,
8170
+ "loss": 0.8928,
8171
+ "step": 1166
8172
+ },
8173
+ {
8174
+ "epoch": 0.007756704032223223,
8175
+ "grad_norm": 0.6539303064346313,
8176
+ "learning_rate": 3.6878294881420363e-06,
8177
+ "loss": 0.9344,
8178
+ "step": 1167
8179
+ },
8180
+ {
8181
+ "epoch": 0.007763350736621015,
8182
+ "grad_norm": 1.1968379020690918,
8183
+ "learning_rate": 3.6432748883524935e-06,
8184
+ "loss": 0.9727,
8185
+ "step": 1168
8186
+ },
8187
+ {
8188
+ "epoch": 0.007769997441018807,
8189
+ "grad_norm": 0.6433477401733398,
8190
+ "learning_rate": 3.598980892236198e-06,
8191
+ "loss": 0.6713,
8192
+ "step": 1169
8193
+ },
8194
+ {
8195
+ "epoch": 0.007776644145416599,
8196
+ "grad_norm": 0.9618440866470337,
8197
+ "learning_rate": 3.5549477488007854e-06,
8198
+ "loss": 1.0181,
8199
+ "step": 1170
8200
+ },
8201
+ {
8202
+ "epoch": 0.007783290849814391,
8203
+ "grad_norm": 0.8468819856643677,
8204
+ "learning_rate": 3.511175705587433e-06,
8205
+ "loss": 0.8858,
8206
+ "step": 1171
8207
+ },
8208
+ {
8209
+ "epoch": 0.0077899375542121825,
8210
+ "grad_norm": 0.7299633026123047,
8211
+ "learning_rate": 3.4676650086695016e-06,
8212
+ "loss": 0.7895,
8213
+ "step": 1172
8214
+ },
8215
+ {
8216
+ "epoch": 0.007796584258609975,
8217
+ "grad_norm": 0.9545450210571289,
8218
+ "learning_rate": 3.4244159026511566e-06,
8219
+ "loss": 0.8403,
8220
+ "step": 1173
8221
+ },
8222
+ {
8223
+ "epoch": 0.007803230963007767,
8224
+ "grad_norm": 0.9891371726989746,
8225
+ "learning_rate": 3.3814286306659502e-06,
8226
+ "loss": 0.9864,
8227
+ "step": 1174
8228
+ },
8229
+ {
8230
+ "epoch": 0.0078098776674055586,
8231
+ "grad_norm": 0.7887678146362305,
8232
+ "learning_rate": 3.3387034343755065e-06,
8233
+ "loss": 0.9753,
8234
+ "step": 1175
8235
+ },
8236
+ {
8237
+ "epoch": 0.00781652437180335,
8238
+ "grad_norm": 0.9488683938980103,
8239
+ "learning_rate": 3.2962405539681217e-06,
8240
+ "loss": 0.6611,
8241
+ "step": 1176
8242
+ },
8243
+ {
8244
+ "epoch": 0.007823171076201143,
8245
+ "grad_norm": 1.0425969362258911,
8246
+ "learning_rate": 3.25404022815744e-06,
8247
+ "loss": 0.7946,
8248
+ "step": 1177
8249
+ },
8250
+ {
8251
+ "epoch": 0.007829817780598934,
8252
+ "grad_norm": 1.1102572679519653,
8253
+ "learning_rate": 3.2121026941811015e-06,
8254
+ "loss": 0.4979,
8255
+ "step": 1178
8256
+ },
8257
+ {
8258
+ "epoch": 0.007836464484996726,
8259
+ "grad_norm": 0.8967680931091309,
8260
+ "learning_rate": 3.1704281877993903e-06,
8261
+ "loss": 0.8126,
8262
+ "step": 1179
8263
+ },
8264
+ {
8265
+ "epoch": 0.007843111189394519,
8266
+ "grad_norm": 0.7562099099159241,
8267
+ "learning_rate": 3.1290169432939553e-06,
8268
+ "loss": 0.7026,
8269
+ "step": 1180
8270
+ },
8271
+ {
8272
+ "epoch": 0.00784975789379231,
8273
+ "grad_norm": 0.9412071108818054,
8274
+ "learning_rate": 3.087869193466458e-06,
8275
+ "loss": 0.8846,
8276
+ "step": 1181
8277
+ },
8278
+ {
8279
+ "epoch": 0.007856404598190102,
8280
+ "grad_norm": 1.510528564453125,
8281
+ "learning_rate": 3.0469851696372564e-06,
8282
+ "loss": 1.1582,
8283
+ "step": 1182
8284
+ },
8285
+ {
8286
+ "epoch": 0.007863051302587895,
8287
+ "grad_norm": 1.3257495164871216,
8288
+ "learning_rate": 3.0063651016441428e-06,
8289
+ "loss": 0.7229,
8290
+ "step": 1183
8291
+ },
8292
+ {
8293
+ "epoch": 0.007869698006985686,
8294
+ "grad_norm": 1.0000684261322021,
8295
+ "learning_rate": 2.9660092178409927e-06,
8296
+ "loss": 0.8639,
8297
+ "step": 1184
8298
+ },
8299
+ {
8300
+ "epoch": 0.007876344711383479,
8301
+ "grad_norm": 1.1794826984405518,
8302
+ "learning_rate": 2.9259177450965682e-06,
8303
+ "loss": 0.8521,
8304
+ "step": 1185
8305
+ },
8306
+ {
8307
+ "epoch": 0.00788299141578127,
8308
+ "grad_norm": 1.2365461587905884,
8309
+ "learning_rate": 2.8860909087931543e-06,
8310
+ "loss": 0.7315,
8311
+ "step": 1186
8312
+ },
8313
+ {
8314
+ "epoch": 0.007889638120179062,
8315
+ "grad_norm": 1.2363101243972778,
8316
+ "learning_rate": 2.8465289328253376e-06,
8317
+ "loss": 0.873,
8318
+ "step": 1187
8319
+ },
8320
+ {
8321
+ "epoch": 0.007896284824576855,
8322
+ "grad_norm": 1.118465781211853,
8323
+ "learning_rate": 2.8072320395987285e-06,
8324
+ "loss": 0.8294,
8325
+ "step": 1188
8326
+ },
8327
+ {
8328
+ "epoch": 0.007902931528974646,
8329
+ "grad_norm": 1.2116254568099976,
8330
+ "learning_rate": 2.7682004500287464e-06,
8331
+ "loss": 0.7468,
8332
+ "step": 1189
8333
+ },
8334
+ {
8335
+ "epoch": 0.007909578233372438,
8336
+ "grad_norm": 1.4756786823272705,
8337
+ "learning_rate": 2.7294343835393368e-06,
8338
+ "loss": 0.7626,
8339
+ "step": 1190
8340
+ },
8341
+ {
8342
+ "epoch": 0.00791622493777023,
8343
+ "grad_norm": 1.321200966835022,
8344
+ "learning_rate": 2.690934058061756e-06,
8345
+ "loss": 0.9202,
8346
+ "step": 1191
8347
+ },
8348
+ {
8349
+ "epoch": 0.007922871642168022,
8350
+ "grad_norm": 1.2931435108184814,
8351
+ "learning_rate": 2.6526996900333277e-06,
8352
+ "loss": 0.7292,
8353
+ "step": 1192
8354
+ },
8355
+ {
8356
+ "epoch": 0.007929518346565814,
8357
+ "grad_norm": 1.1711453199386597,
8358
+ "learning_rate": 2.614731494396283e-06,
8359
+ "loss": 0.7659,
8360
+ "step": 1193
8361
+ },
8362
+ {
8363
+ "epoch": 0.007936165050963607,
8364
+ "grad_norm": 1.4512163400650024,
8365
+ "learning_rate": 2.577029684596466e-06,
8366
+ "loss": 0.7325,
8367
+ "step": 1194
8368
+ },
8369
+ {
8370
+ "epoch": 0.007942811755361398,
8371
+ "grad_norm": 1.4844986200332642,
8372
+ "learning_rate": 2.539594472582213e-06,
8373
+ "loss": 0.7598,
8374
+ "step": 1195
8375
+ },
8376
+ {
8377
+ "epoch": 0.00794945845975919,
8378
+ "grad_norm": 1.782923936843872,
8379
+ "learning_rate": 2.5024260688030987e-06,
8380
+ "loss": 0.659,
8381
+ "step": 1196
8382
+ },
8383
+ {
8384
+ "epoch": 0.007956105164156981,
8385
+ "grad_norm": 2.0441620349884033,
8386
+ "learning_rate": 2.465524682208814e-06,
8387
+ "loss": 0.9054,
8388
+ "step": 1197
8389
+ },
8390
+ {
8391
+ "epoch": 0.007962751868554774,
8392
+ "grad_norm": 2.2920122146606445,
8393
+ "learning_rate": 2.4288905202479283e-06,
8394
+ "loss": 0.9065,
8395
+ "step": 1198
8396
+ },
8397
+ {
8398
+ "epoch": 0.007969398572952566,
8399
+ "grad_norm": 2.007251501083374,
8400
+ "learning_rate": 2.3925237888667572e-06,
8401
+ "loss": 0.8426,
8402
+ "step": 1199
8403
+ },
8404
+ {
8405
+ "epoch": 0.007976045277350357,
8406
+ "grad_norm": 2.4775331020355225,
8407
+ "learning_rate": 2.3564246925082357e-06,
8408
+ "loss": 0.6222,
8409
+ "step": 1200
8410
+ },
8411
+ {
8412
+ "epoch": 0.00798269198174815,
8413
+ "grad_norm": 0.31705576181411743,
8414
+ "learning_rate": 2.320593434110696e-06,
8415
+ "loss": 1.0729,
8416
+ "step": 1201
8417
+ },
8418
+ {
8419
+ "epoch": 0.007989338686145942,
8420
+ "grad_norm": 0.6680214405059814,
8421
+ "learning_rate": 2.2850302151067814e-06,
8422
+ "loss": 0.884,
8423
+ "step": 1202
8424
+ },
8425
+ {
8426
+ "epoch": 0.007995985390543733,
8427
+ "grad_norm": 0.5763593316078186,
8428
+ "learning_rate": 2.2497352354222902e-06,
8429
+ "loss": 0.7567,
8430
+ "step": 1203
8431
+ },
8432
+ {
8433
+ "epoch": 0.008002632094941526,
8434
+ "grad_norm": 0.5514530539512634,
8435
+ "learning_rate": 2.214708693475065e-06,
8436
+ "loss": 0.768,
8437
+ "step": 1204
8438
+ },
8439
+ {
8440
+ "epoch": 0.008009278799339317,
8441
+ "grad_norm": 0.6078202128410339,
8442
+ "learning_rate": 2.179950786173879e-06,
8443
+ "loss": 0.839,
8444
+ "step": 1205
8445
+ },
8446
+ {
8447
+ "epoch": 0.00801592550373711,
8448
+ "grad_norm": 0.630172610282898,
8449
+ "learning_rate": 2.145461708917312e-06,
8450
+ "loss": 0.8652,
8451
+ "step": 1206
8452
+ },
8453
+ {
8454
+ "epoch": 0.008022572208134902,
8455
+ "grad_norm": 0.7208753824234009,
8456
+ "learning_rate": 2.1112416555926497e-06,
8457
+ "loss": 0.9369,
8458
+ "step": 1207
8459
+ },
8460
+ {
8461
+ "epoch": 0.008029218912532693,
8462
+ "grad_norm": 0.8084291815757751,
8463
+ "learning_rate": 2.077290818574834e-06,
8464
+ "loss": 0.7762,
8465
+ "step": 1208
8466
+ },
8467
+ {
8468
+ "epoch": 0.008035865616930486,
8469
+ "grad_norm": 0.5719032287597656,
8470
+ "learning_rate": 2.043609388725326e-06,
8471
+ "loss": 0.9558,
8472
+ "step": 1209
8473
+ },
8474
+ {
8475
+ "epoch": 0.008042512321328278,
8476
+ "grad_norm": 0.6796174645423889,
8477
+ "learning_rate": 2.01019755539108e-06,
8478
+ "loss": 1.0185,
8479
+ "step": 1210
8480
+ },
8481
+ {
8482
+ "epoch": 0.008049159025726069,
8483
+ "grad_norm": 0.6527438759803772,
8484
+ "learning_rate": 1.9770555064034467e-06,
8485
+ "loss": 0.7037,
8486
+ "step": 1211
8487
+ },
8488
+ {
8489
+ "epoch": 0.008055805730123862,
8490
+ "grad_norm": 0.776106595993042,
8491
+ "learning_rate": 1.944183428077145e-06,
8492
+ "loss": 0.8553,
8493
+ "step": 1212
8494
+ },
8495
+ {
8496
+ "epoch": 0.008062452434521653,
8497
+ "grad_norm": 0.5876369476318359,
8498
+ "learning_rate": 1.911581505209176e-06,
8499
+ "loss": 0.9049,
8500
+ "step": 1213
8501
+ },
8502
+ {
8503
+ "epoch": 0.008069099138919445,
8504
+ "grad_norm": 0.7080634832382202,
8505
+ "learning_rate": 1.8792499210778191e-06,
8506
+ "loss": 0.8793,
8507
+ "step": 1214
8508
+ },
8509
+ {
8510
+ "epoch": 0.008075745843317238,
8511
+ "grad_norm": 0.9152222275733948,
8512
+ "learning_rate": 1.8471888574415951e-06,
8513
+ "loss": 0.6502,
8514
+ "step": 1215
8515
+ },
8516
+ {
8517
+ "epoch": 0.008082392547715029,
8518
+ "grad_norm": 0.7787750959396362,
8519
+ "learning_rate": 1.8153984945382452e-06,
8520
+ "loss": 0.8039,
8521
+ "step": 1216
8522
+ },
8523
+ {
8524
+ "epoch": 0.008089039252112821,
8525
+ "grad_norm": 0.8649187088012695,
8526
+ "learning_rate": 1.783879011083689e-06,
8527
+ "loss": 0.8385,
8528
+ "step": 1217
8529
+ },
8530
+ {
8531
+ "epoch": 0.008095685956510614,
8532
+ "grad_norm": 0.6336601376533508,
8533
+ "learning_rate": 1.7526305842710532e-06,
8534
+ "loss": 0.8588,
8535
+ "step": 1218
8536
+ },
8537
+ {
8538
+ "epoch": 0.008102332660908405,
8539
+ "grad_norm": 0.6925593614578247,
8540
+ "learning_rate": 1.7216533897696675e-06,
8541
+ "loss": 0.9039,
8542
+ "step": 1219
8543
+ },
8544
+ {
8545
+ "epoch": 0.008108979365306197,
8546
+ "grad_norm": 0.7388715147972107,
8547
+ "learning_rate": 1.6909476017240912e-06,
8548
+ "loss": 0.8403,
8549
+ "step": 1220
8550
+ },
8551
+ {
8552
+ "epoch": 0.008115626069703988,
8553
+ "grad_norm": 0.7469501495361328,
8554
+ "learning_rate": 1.6605133927530825e-06,
8555
+ "loss": 0.7552,
8556
+ "step": 1221
8557
+ },
8558
+ {
8559
+ "epoch": 0.00812227277410178,
8560
+ "grad_norm": 0.8448594212532043,
8561
+ "learning_rate": 1.6303509339486823e-06,
8562
+ "loss": 0.8702,
8563
+ "step": 1222
8564
+ },
8565
+ {
8566
+ "epoch": 0.008128919478499573,
8567
+ "grad_norm": 0.8358093500137329,
8568
+ "learning_rate": 1.6004603948752473e-06,
8569
+ "loss": 0.8922,
8570
+ "step": 1223
8571
+ },
8572
+ {
8573
+ "epoch": 0.008135566182897364,
8574
+ "grad_norm": 1.0381255149841309,
8575
+ "learning_rate": 1.5708419435684462e-06,
8576
+ "loss": 0.7692,
8577
+ "step": 1224
8578
+ },
8579
+ {
8580
+ "epoch": 0.008142212887295157,
8581
+ "grad_norm": 0.8204221129417419,
8582
+ "learning_rate": 1.5414957465343882e-06,
8583
+ "loss": 0.8635,
8584
+ "step": 1225
8585
+ },
8586
+ {
8587
+ "epoch": 0.00814885959169295,
8588
+ "grad_norm": 1.3811793327331543,
8589
+ "learning_rate": 1.512421968748623e-06,
8590
+ "loss": 1.0606,
8591
+ "step": 1226
8592
+ },
8593
+ {
8594
+ "epoch": 0.00815550629609074,
8595
+ "grad_norm": 0.7987362742424011,
8596
+ "learning_rate": 1.4836207736552642e-06,
8597
+ "loss": 0.8876,
8598
+ "step": 1227
8599
+ },
8600
+ {
8601
+ "epoch": 0.008162153000488533,
8602
+ "grad_norm": 1.040132761001587,
8603
+ "learning_rate": 1.455092323166024e-06,
8604
+ "loss": 0.8985,
8605
+ "step": 1228
8606
+ },
8607
+ {
8608
+ "epoch": 0.008168799704886326,
8609
+ "grad_norm": 0.9249858260154724,
8610
+ "learning_rate": 1.4268367776593405e-06,
8611
+ "loss": 0.8616,
8612
+ "step": 1229
8613
+ },
8614
+ {
8615
+ "epoch": 0.008175446409284116,
8616
+ "grad_norm": 1.1802650690078735,
8617
+ "learning_rate": 1.3988542959794627e-06,
8618
+ "loss": 0.6785,
8619
+ "step": 1230
8620
+ },
8621
+ {
8622
+ "epoch": 0.008182093113681909,
8623
+ "grad_norm": 1.0302826166152954,
8624
+ "learning_rate": 1.3711450354355449e-06,
8625
+ "loss": 0.6362,
8626
+ "step": 1231
8627
+ },
8628
+ {
8629
+ "epoch": 0.0081887398180797,
8630
+ "grad_norm": 1.121963381767273,
8631
+ "learning_rate": 1.3437091518007816e-06,
8632
+ "loss": 1.023,
8633
+ "step": 1232
8634
+ },
8635
+ {
8636
+ "epoch": 0.008195386522477493,
8637
+ "grad_norm": 1.0118569135665894,
8638
+ "learning_rate": 1.3165467993115244e-06,
8639
+ "loss": 0.7098,
8640
+ "step": 1233
8641
+ },
8642
+ {
8643
+ "epoch": 0.008202033226875285,
8644
+ "grad_norm": 1.052306890487671,
8645
+ "learning_rate": 1.2896581306664047e-06,
8646
+ "loss": 0.7376,
8647
+ "step": 1234
8648
+ },
8649
+ {
8650
+ "epoch": 0.008208679931273076,
8651
+ "grad_norm": 1.0704679489135742,
8652
+ "learning_rate": 1.2630432970255013e-06,
8653
+ "loss": 1.0065,
8654
+ "step": 1235
8655
+ },
8656
+ {
8657
+ "epoch": 0.008215326635670869,
8658
+ "grad_norm": 1.216379165649414,
8659
+ "learning_rate": 1.2367024480094691e-06,
8660
+ "loss": 0.515,
8661
+ "step": 1236
8662
+ },
8663
+ {
8664
+ "epoch": 0.008221973340068661,
8665
+ "grad_norm": 1.3317914009094238,
8666
+ "learning_rate": 1.2106357316986838e-06,
8667
+ "loss": 0.7376,
8668
+ "step": 1237
8669
+ },
8670
+ {
8671
+ "epoch": 0.008228620044466452,
8672
+ "grad_norm": 1.7680779695510864,
8673
+ "learning_rate": 1.1848432946324594e-06,
8674
+ "loss": 0.9229,
8675
+ "step": 1238
8676
+ },
8677
+ {
8678
+ "epoch": 0.008235266748864245,
8679
+ "grad_norm": 1.3019485473632812,
8680
+ "learning_rate": 1.1593252818081658e-06,
8681
+ "loss": 1.0404,
8682
+ "step": 1239
8683
+ },
8684
+ {
8685
+ "epoch": 0.008241913453262036,
8686
+ "grad_norm": 1.3333247900009155,
8687
+ "learning_rate": 1.1340818366804729e-06,
8688
+ "loss": 0.6831,
8689
+ "step": 1240
8690
+ },
8691
+ {
8692
+ "epoch": 0.008248560157659828,
8693
+ "grad_norm": 1.3237649202346802,
8694
+ "learning_rate": 1.1091131011604804e-06,
8695
+ "loss": 0.7026,
8696
+ "step": 1241
8697
+ },
8698
+ {
8699
+ "epoch": 0.00825520686205762,
8700
+ "grad_norm": 1.5985360145568848,
8701
+ "learning_rate": 1.084419215614979e-06,
8702
+ "loss": 0.854,
8703
+ "step": 1242
8704
+ },
8705
+ {
8706
+ "epoch": 0.008261853566455412,
8707
+ "grad_norm": 1.1438730955123901,
8708
+ "learning_rate": 1.0600003188656117e-06,
8709
+ "loss": 0.5545,
8710
+ "step": 1243
8711
+ },
8712
+ {
8713
+ "epoch": 0.008268500270853204,
8714
+ "grad_norm": 1.2783243656158447,
8715
+ "learning_rate": 1.0358565481881356e-06,
8716
+ "loss": 0.4873,
8717
+ "step": 1244
8718
+ },
8719
+ {
8720
+ "epoch": 0.008275146975250997,
8721
+ "grad_norm": 1.4403537511825562,
8722
+ "learning_rate": 1.0119880393116176e-06,
8723
+ "loss": 0.7985,
8724
+ "step": 1245
8725
+ },
8726
+ {
8727
+ "epoch": 0.008281793679648788,
8728
+ "grad_norm": 1.6538810729980469,
8729
+ "learning_rate": 9.883949264176962e-07,
8730
+ "loss": 0.8637,
8731
+ "step": 1246
8732
+ },
8733
+ {
8734
+ "epoch": 0.00828844038404658,
8735
+ "grad_norm": 1.6638885736465454,
8736
+ "learning_rate": 9.65077342139814e-07,
8737
+ "loss": 0.7477,
8738
+ "step": 1247
8739
+ },
8740
+ {
8741
+ "epoch": 0.008295087088444371,
8742
+ "grad_norm": 1.9725651741027832,
8743
+ "learning_rate": 9.420354175624591e-07,
8744
+ "loss": 0.9379,
8745
+ "step": 1248
8746
+ },
8747
+ {
8748
+ "epoch": 0.008301733792842164,
8749
+ "grad_norm": 2.747512102127075,
8750
+ "learning_rate": 9.19269282220464e-07,
8751
+ "loss": 0.8132,
8752
+ "step": 1249
8753
+ },
8754
+ {
8755
+ "epoch": 0.008308380497239956,
8756
+ "grad_norm": 3.339989423751831,
8757
+ "learning_rate": 8.967790640982465e-07,
8758
+ "loss": 0.9292,
8759
+ "step": 1250
8760
+ },
8761
+ {
8762
+ "epoch": 0.008315027201637747,
8763
+ "grad_norm": 0.36648422479629517,
8764
+ "learning_rate": 8.745648896290981e-07,
8765
+ "loss": 0.9416,
8766
+ "step": 1251
8767
+ },
8768
+ {
8769
+ "epoch": 0.00832167390603554,
8770
+ "grad_norm": 0.429190456867218,
8771
+ "learning_rate": 8.52626883694474e-07,
8772
+ "loss": 0.9262,
8773
+ "step": 1252
8774
+ },
8775
+ {
8776
+ "epoch": 0.008328320610433333,
8777
+ "grad_norm": 0.6208512187004089,
8778
+ "learning_rate": 8.309651696233045e-07,
8779
+ "loss": 0.9098,
8780
+ "step": 1253
8781
+ },
8782
+ {
8783
+ "epoch": 0.008334967314831123,
8784
+ "grad_norm": 0.5772883892059326,
8785
+ "learning_rate": 8.095798691912737e-07,
8786
+ "loss": 0.8938,
8787
+ "step": 1254
8788
+ },
8789
+ {
8790
+ "epoch": 0.008341614019228916,
8791
+ "grad_norm": 0.6024505496025085,
8792
+ "learning_rate": 7.884711026201585e-07,
8793
+ "loss": 0.6757,
8794
+ "step": 1255
8795
+ },
8796
+ {
8797
+ "epoch": 0.008348260723626709,
8798
+ "grad_norm": 0.47945520281791687,
8799
+ "learning_rate": 7.676389885771518e-07,
8800
+ "loss": 0.769,
8801
+ "step": 1256
8802
+ },
8803
+ {
8804
+ "epoch": 0.0083549074280245,
8805
+ "grad_norm": 0.5948473215103149,
8806
+ "learning_rate": 7.470836441741736e-07,
8807
+ "loss": 0.8862,
8808
+ "step": 1257
8809
+ },
8810
+ {
8811
+ "epoch": 0.008361554132422292,
8812
+ "grad_norm": 0.5873749852180481,
8813
+ "learning_rate": 7.268051849672441e-07,
8814
+ "loss": 0.8728,
8815
+ "step": 1258
8816
+ },
8817
+ {
8818
+ "epoch": 0.008368200836820083,
8819
+ "grad_norm": 0.5595722794532776,
8820
+ "learning_rate": 7.068037249557957e-07,
8821
+ "loss": 0.8866,
8822
+ "step": 1259
8823
+ },
8824
+ {
8825
+ "epoch": 0.008374847541217876,
8826
+ "grad_norm": 0.6838152408599854,
8827
+ "learning_rate": 6.870793765820782e-07,
8828
+ "loss": 0.7628,
8829
+ "step": 1260
8830
+ },
8831
+ {
8832
+ "epoch": 0.008381494245615668,
8833
+ "grad_norm": 0.6558036804199219,
8834
+ "learning_rate": 6.676322507304877e-07,
8835
+ "loss": 0.9166,
8836
+ "step": 1261
8837
+ },
8838
+ {
8839
+ "epoch": 0.008388140950013459,
8840
+ "grad_norm": 0.6153919100761414,
8841
+ "learning_rate": 6.484624567269615e-07,
8842
+ "loss": 0.7852,
8843
+ "step": 1262
8844
+ },
8845
+ {
8846
+ "epoch": 0.008394787654411252,
8847
+ "grad_norm": 0.7325903177261353,
8848
+ "learning_rate": 6.29570102338356e-07,
8849
+ "loss": 0.9253,
8850
+ "step": 1263
8851
+ },
8852
+ {
8853
+ "epoch": 0.008401434358809044,
8854
+ "grad_norm": 0.7558137774467468,
8855
+ "learning_rate": 6.109552937718588e-07,
8856
+ "loss": 0.6489,
8857
+ "step": 1264
8858
+ },
8859
+ {
8860
+ "epoch": 0.008408081063206835,
8861
+ "grad_norm": 0.6297517418861389,
8862
+ "learning_rate": 5.92618135674361e-07,
8863
+ "loss": 0.9842,
8864
+ "step": 1265
8865
+ },
8866
+ {
8867
+ "epoch": 0.008414727767604628,
8868
+ "grad_norm": 0.7743880748748779,
8869
+ "learning_rate": 5.745587311318968e-07,
8870
+ "loss": 0.8271,
8871
+ "step": 1266
8872
+ },
8873
+ {
8874
+ "epoch": 0.008421374472002419,
8875
+ "grad_norm": 0.7147794365882874,
8876
+ "learning_rate": 5.567771816690381e-07,
8877
+ "loss": 0.9824,
8878
+ "step": 1267
8879
+ },
8880
+ {
8881
+ "epoch": 0.008428021176400211,
8882
+ "grad_norm": 0.831110954284668,
8883
+ "learning_rate": 5.392735872483623e-07,
8884
+ "loss": 0.8822,
8885
+ "step": 1268
8886
+ },
8887
+ {
8888
+ "epoch": 0.008434667880798004,
8889
+ "grad_norm": 0.7674936652183533,
8890
+ "learning_rate": 5.220480462698462e-07,
8891
+ "loss": 0.7066,
8892
+ "step": 1269
8893
+ },
8894
+ {
8895
+ "epoch": 0.008441314585195795,
8896
+ "grad_norm": 0.8405891060829163,
8897
+ "learning_rate": 5.051006555703453e-07,
8898
+ "loss": 0.7432,
8899
+ "step": 1270
8900
+ },
8901
+ {
8902
+ "epoch": 0.008447961289593587,
8903
+ "grad_norm": 0.8006777167320251,
8904
+ "learning_rate": 4.884315104230264e-07,
8905
+ "loss": 0.8399,
8906
+ "step": 1271
8907
+ },
8908
+ {
8909
+ "epoch": 0.00845460799399138,
8910
+ "grad_norm": 0.8176466226577759,
8911
+ "learning_rate": 4.7204070453685244e-07,
8912
+ "loss": 0.6448,
8913
+ "step": 1272
8914
+ },
8915
+ {
8916
+ "epoch": 0.00846125469838917,
8917
+ "grad_norm": 0.74027019739151,
8918
+ "learning_rate": 4.5592833005603796e-07,
8919
+ "loss": 0.8987,
8920
+ "step": 1273
8921
+ },
8922
+ {
8923
+ "epoch": 0.008467901402786963,
8924
+ "grad_norm": 0.9606915712356567,
8925
+ "learning_rate": 4.4009447755954944e-07,
8926
+ "loss": 1.0994,
8927
+ "step": 1274
8928
+ },
8929
+ {
8930
+ "epoch": 0.008474548107184754,
8931
+ "grad_norm": 1.3926945924758911,
8932
+ "learning_rate": 4.2453923606057265e-07,
8933
+ "loss": 0.7428,
8934
+ "step": 1275
8935
+ },
8936
+ {
8937
+ "epoch": 0.008481194811582547,
8938
+ "grad_norm": 0.9520140290260315,
8939
+ "learning_rate": 4.0926269300603503e-07,
8940
+ "loss": 0.9258,
8941
+ "step": 1276
8942
+ },
8943
+ {
8944
+ "epoch": 0.00848784151598034,
8945
+ "grad_norm": 0.8461837768554688,
8946
+ "learning_rate": 3.9426493427611177e-07,
8947
+ "loss": 0.7099,
8948
+ "step": 1277
8949
+ },
8950
+ {
8951
+ "epoch": 0.00849448822037813,
8952
+ "grad_norm": 0.9905888438224792,
8953
+ "learning_rate": 3.795460441837095e-07,
8954
+ "loss": 0.8662,
8955
+ "step": 1278
8956
+ },
8957
+ {
8958
+ "epoch": 0.008501134924775923,
8959
+ "grad_norm": 0.9792956113815308,
8960
+ "learning_rate": 3.651061054740501e-07,
8961
+ "loss": 0.8404,
8962
+ "step": 1279
8963
+ },
8964
+ {
8965
+ "epoch": 0.008507781629173716,
8966
+ "grad_norm": 1.0338367223739624,
8967
+ "learning_rate": 3.5094519932415417e-07,
8968
+ "loss": 0.7575,
8969
+ "step": 1280
8970
+ },
8971
+ {
8972
+ "epoch": 0.008514428333571506,
8973
+ "grad_norm": 1.1163334846496582,
8974
+ "learning_rate": 3.370634053424082e-07,
8975
+ "loss": 0.7396,
8976
+ "step": 1281
8977
+ },
8978
+ {
8979
+ "epoch": 0.008521075037969299,
8980
+ "grad_norm": 1.0261398553848267,
8981
+ "learning_rate": 3.234608015681151e-07,
8982
+ "loss": 0.7362,
8983
+ "step": 1282
8984
+ },
8985
+ {
8986
+ "epoch": 0.008527721742367092,
8987
+ "grad_norm": 0.927574872970581,
8988
+ "learning_rate": 3.1013746447104975e-07,
8989
+ "loss": 0.8644,
8990
+ "step": 1283
8991
+ },
8992
+ {
8993
+ "epoch": 0.008534368446764883,
8994
+ "grad_norm": 1.1198316812515259,
8995
+ "learning_rate": 2.970934689510485e-07,
8996
+ "loss": 0.7248,
8997
+ "step": 1284
8998
+ },
8999
+ {
9000
+ "epoch": 0.008541015151162675,
9001
+ "grad_norm": 1.0062837600708008,
9002
+ "learning_rate": 2.843288883375539e-07,
9003
+ "loss": 0.7071,
9004
+ "step": 1285
9005
+ },
9006
+ {
9007
+ "epoch": 0.008547661855560466,
9008
+ "grad_norm": 1.5024248361587524,
9009
+ "learning_rate": 2.71843794389226e-07,
9010
+ "loss": 0.7523,
9011
+ "step": 1286
9012
+ },
9013
+ {
9014
+ "epoch": 0.008554308559958259,
9015
+ "grad_norm": 1.3791800737380981,
9016
+ "learning_rate": 2.596382572935374e-07,
9017
+ "loss": 0.7903,
9018
+ "step": 1287
9019
+ },
9020
+ {
9021
+ "epoch": 0.008560955264356051,
9022
+ "grad_norm": 1.1591501235961914,
9023
+ "learning_rate": 2.477123456663788e-07,
9024
+ "loss": 0.7717,
9025
+ "step": 1288
9026
+ },
9027
+ {
9028
+ "epoch": 0.008567601968753842,
9029
+ "grad_norm": 1.3647840023040771,
9030
+ "learning_rate": 2.3606612655166504e-07,
9031
+ "loss": 0.7711,
9032
+ "step": 1289
9033
+ },
9034
+ {
9035
+ "epoch": 0.008574248673151635,
9036
+ "grad_norm": 1.3846338987350464,
9037
+ "learning_rate": 2.2469966542096322e-07,
9038
+ "loss": 0.95,
9039
+ "step": 1290
9040
+ },
9041
+ {
9042
+ "epoch": 0.008580895377549427,
9043
+ "grad_norm": 1.1583385467529297,
9044
+ "learning_rate": 2.1361302617312619e-07,
9045
+ "loss": 0.5463,
9046
+ "step": 1291
9047
+ },
9048
+ {
9049
+ "epoch": 0.008587542081947218,
9050
+ "grad_norm": 1.452928900718689,
9051
+ "learning_rate": 2.028062711339318e-07,
9052
+ "loss": 0.8323,
9053
+ "step": 1292
9054
+ },
9055
+ {
9056
+ "epoch": 0.00859418878634501,
9057
+ "grad_norm": 1.6725733280181885,
9058
+ "learning_rate": 1.922794610557277e-07,
9059
+ "loss": 0.9138,
9060
+ "step": 1293
9061
+ },
9062
+ {
9063
+ "epoch": 0.008600835490742802,
9064
+ "grad_norm": 1.342020034790039,
9065
+ "learning_rate": 1.8203265511710365e-07,
9066
+ "loss": 0.7097,
9067
+ "step": 1294
9068
+ },
9069
+ {
9070
+ "epoch": 0.008607482195140594,
9071
+ "grad_norm": 1.666353464126587,
9072
+ "learning_rate": 1.7206591092253642e-07,
9073
+ "loss": 0.8405,
9074
+ "step": 1295
9075
+ },
9076
+ {
9077
+ "epoch": 0.008614128899538387,
9078
+ "grad_norm": 2.023453712463379,
9079
+ "learning_rate": 1.623792845020955e-07,
9080
+ "loss": 0.9479,
9081
+ "step": 1296
9082
+ },
9083
+ {
9084
+ "epoch": 0.008620775603936178,
9085
+ "grad_norm": 2.3681578636169434,
9086
+ "learning_rate": 1.529728303110989e-07,
9087
+ "loss": 0.8534,
9088
+ "step": 1297
9089
+ },
9090
+ {
9091
+ "epoch": 0.00862742230833397,
9092
+ "grad_norm": 1.3655821084976196,
9093
+ "learning_rate": 1.4384660122983007e-07,
9094
+ "loss": 0.6382,
9095
+ "step": 1298
9096
+ },
9097
+ {
9098
+ "epoch": 0.008634069012731763,
9099
+ "grad_norm": 2.0608959197998047,
9100
+ "learning_rate": 1.3500064856321603e-07,
9101
+ "loss": 0.7469,
9102
+ "step": 1299
9103
+ },
9104
+ {
9105
+ "epoch": 0.008640715717129554,
9106
+ "grad_norm": 3.251729726791382,
9107
+ "learning_rate": 1.264350220405719e-07,
9108
+ "loss": 1.0694,
9109
+ "step": 1300
9110
+ },
9111
+ {
9112
+ "epoch": 0.008647362421527346,
9113
+ "grad_norm": 0.3500362038612366,
9114
+ "learning_rate": 1.1814976981529002e-07,
9115
+ "loss": 1.0851,
9116
+ "step": 1301
9117
+ },
9118
+ {
9119
+ "epoch": 0.008654009125925137,
9120
+ "grad_norm": 0.7794168591499329,
9121
+ "learning_rate": 1.1014493846457919e-07,
9122
+ "loss": 1.0559,
9123
+ "step": 1302
9124
+ },
9125
+ {
9126
+ "epoch": 0.00866065583032293,
9127
+ "grad_norm": 0.49550482630729675,
9128
+ "learning_rate": 1.0242057298922581e-07,
9129
+ "loss": 0.791,
9130
+ "step": 1303
9131
+ },
9132
+ {
9133
+ "epoch": 0.008667302534720723,
9134
+ "grad_norm": 0.5143431425094604,
9135
+ "learning_rate": 9.497671681329423e-08,
9136
+ "loss": 0.7753,
9137
+ "step": 1304
9138
+ },
9139
+ {
9140
+ "epoch": 0.008673949239118513,
9141
+ "grad_norm": 0.49252620339393616,
9142
+ "learning_rate": 8.781341178393244e-08,
9143
+ "loss": 0.6776,
9144
+ "step": 1305
9145
+ },
9146
+ {
9147
+ "epoch": 0.008680595943516306,
9148
+ "grad_norm": 0.4753943681716919,
9149
+ "learning_rate": 8.093069817109445e-08,
9150
+ "loss": 0.9467,
9151
+ "step": 1306
9152
+ },
9153
+ {
9154
+ "epoch": 0.008687242647914099,
9155
+ "grad_norm": 0.5471718311309814,
9156
+ "learning_rate": 7.432861466734608e-08,
9157
+ "loss": 0.9961,
9158
+ "step": 1307
9159
+ },
9160
+ {
9161
+ "epoch": 0.00869388935231189,
9162
+ "grad_norm": 0.5803403258323669,
9163
+ "learning_rate": 6.800719838763182e-08,
9164
+ "loss": 0.7374,
9165
+ "step": 1308
9166
+ },
9167
+ {
9168
+ "epoch": 0.008700536056709682,
9169
+ "grad_norm": 0.7243188619613647,
9170
+ "learning_rate": 6.196648486906375e-08,
9171
+ "loss": 0.7798,
9172
+ "step": 1309
9173
+ },
9174
+ {
9175
+ "epoch": 0.008707182761107475,
9176
+ "grad_norm": 0.8324836492538452,
9177
+ "learning_rate": 5.620650807073857e-08,
9178
+ "loss": 1.129,
9179
+ "step": 1310
9180
+ },
9181
+ {
9182
+ "epoch": 0.008713829465505266,
9183
+ "grad_norm": 0.7195192575454712,
9184
+ "learning_rate": 5.072730037351536e-08,
9185
+ "loss": 0.8921,
9186
+ "step": 1311
9187
+ },
9188
+ {
9189
+ "epoch": 0.008720476169903058,
9190
+ "grad_norm": 0.6834086775779724,
9191
+ "learning_rate": 4.552889257987136e-08,
9192
+ "loss": 0.7839,
9193
+ "step": 1312
9194
+ },
9195
+ {
9196
+ "epoch": 0.008727122874300849,
9197
+ "grad_norm": 0.7733263373374939,
9198
+ "learning_rate": 4.06113139137021e-08,
9199
+ "loss": 0.8451,
9200
+ "step": 1313
9201
+ },
9202
+ {
9203
+ "epoch": 0.008733769578698642,
9204
+ "grad_norm": 0.7354872226715088,
9205
+ "learning_rate": 3.5974592020165954e-08,
9206
+ "loss": 0.8272,
9207
+ "step": 1314
9208
+ },
9209
+ {
9210
+ "epoch": 0.008740416283096434,
9211
+ "grad_norm": 0.646259069442749,
9212
+ "learning_rate": 3.161875296553429e-08,
9213
+ "loss": 0.7925,
9214
+ "step": 1315
9215
+ },
9216
+ {
9217
+ "epoch": 0.008747062987494225,
9218
+ "grad_norm": 0.7745428085327148,
9219
+ "learning_rate": 2.7543821237030475e-08,
9220
+ "loss": 0.9565,
9221
+ "step": 1316
9222
+ },
9223
+ {
9224
+ "epoch": 0.008753709691892018,
9225
+ "grad_norm": 0.6693745851516724,
9226
+ "learning_rate": 2.3749819742702185e-08,
9227
+ "loss": 0.7318,
9228
+ "step": 1317
9229
+ },
9230
+ {
9231
+ "epoch": 0.00876035639628981,
9232
+ "grad_norm": 0.731195330619812,
9233
+ "learning_rate": 2.0236769811299294e-08,
9234
+ "loss": 0.7627,
9235
+ "step": 1318
9236
+ },
9237
+ {
9238
+ "epoch": 0.008767003100687601,
9239
+ "grad_norm": 0.7857605814933777,
9240
+ "learning_rate": 1.7004691192135104e-08,
9241
+ "loss": 0.8653,
9242
+ "step": 1319
9243
+ },
9244
+ {
9245
+ "epoch": 0.008773649805085394,
9246
+ "grad_norm": 0.7077126502990723,
9247
+ "learning_rate": 1.4053602054991955e-08,
9248
+ "loss": 0.8137,
9249
+ "step": 1320
9250
+ },
9251
+ {
9252
+ "epoch": 0.008780296509483185,
9253
+ "grad_norm": 0.7648908495903015,
9254
+ "learning_rate": 1.1383518990015773e-08,
9255
+ "loss": 0.741,
9256
+ "step": 1321
9257
+ },
9258
+ {
9259
+ "epoch": 0.008786943213880977,
9260
+ "grad_norm": 0.9375500679016113,
9261
+ "learning_rate": 8.99445700761059e-09,
9262
+ "loss": 0.9017,
9263
+ "step": 1322
9264
+ },
9265
+ {
9266
+ "epoch": 0.00879358991827877,
9267
+ "grad_norm": 0.8353835940361023,
9268
+ "learning_rate": 6.886429538377481e-09,
9269
+ "loss": 0.7284,
9270
+ "step": 1323
9271
+ },
9272
+ {
9273
+ "epoch": 0.00880023662267656,
9274
+ "grad_norm": 1.0171085596084595,
9275
+ "learning_rate": 5.0594484330090955e-09,
9276
+ "loss": 0.7838,
9277
+ "step": 1324
9278
+ },
9279
+ {
9280
+ "epoch": 0.008806883327074353,
9281
+ "grad_norm": 0.786939263343811,
9282
+ "learning_rate": 3.513523962256349e-09,
9283
+ "loss": 0.8177,
9284
+ "step": 1325
9285
+ },
9286
+ {
9287
+ "epoch": 0.008813530031472146,
9288
+ "grad_norm": 0.8693004250526428,
9289
+ "learning_rate": 2.2486648168396075e-09,
9290
+ "loss": 0.8491,
9291
+ "step": 1326
9292
+ },
9293
+ {
9294
+ "epoch": 0.008820176735869937,
9295
+ "grad_norm": 0.9159846305847168,
9296
+ "learning_rate": 1.2648781074209304e-09,
9297
+ "loss": 0.7735,
9298
+ "step": 1327
9299
+ },
9300
+ {
9301
+ "epoch": 0.00882682344026773,
9302
+ "grad_norm": 1.1475635766983032,
9303
+ "learning_rate": 5.621693645541104e-10,
9304
+ "loss": 0.6395,
9305
+ "step": 1328
9306
+ },
9307
+ {
9308
+ "epoch": 0.00883347014466552,
9309
+ "grad_norm": 0.9265028238296509,
9310
+ "learning_rate": 1.4054253866246925e-10,
9311
+ "loss": 0.8467,
9312
+ "step": 1329
9313
+ },
9314
+ {
9315
+ "epoch": 0.008840116849063313,
9316
+ "grad_norm": 0.9815409779548645,
9317
+ "learning_rate": 0.0,
9318
+ "loss": 0.793,
9319
+ "step": 1330
9320
  }
9321
  ],
9322
  "logging_steps": 1,
 
9331
  "should_evaluate": false,
9332
  "should_log": false,
9333
  "should_save": true,
9334
+ "should_training_stop": true
9335
  },
9336
  "attributes": {}
9337
  }
9338
  },
9339
+ "total_flos": 3.701942326080307e+17,
9340
  "train_batch_size": 4,
9341
  "trial_name": null,
9342
  "trial_params": null