ZivKassnerNK commited on
Commit
076c454
·
1 Parent(s): c29ff1a

Add evaluation results and output files to model card

Browse files
README.md CHANGED
@@ -7,7 +7,7 @@ tags:
7
  metrics:
8
  - average_precision: 0.67
9
  - roc_auc: 0.77
10
- - best threshold according to F1: 0.42
11
  ---
12
 
13
  # Binary Classification Model
@@ -16,7 +16,7 @@ metrics:
16
 
17
  **Average Precision:** 0.67
18
  **ROC AUC:** 0.77
19
- **best threshold according to F1: 0.42
20
 
21
 
22
  ## Visualizations
 
7
  metrics:
8
  - average_precision: 0.67
9
  - roc_auc: 0.77
10
+ - best threshold according to F1: 0.40
11
  ---
12
 
13
  # Binary Classification Model
 
16
 
17
  **Average Precision:** 0.67
18
  **ROC AUC:** 0.77
19
+ **best threshold according to F1: 0.40
20
 
21
 
22
  ## Visualizations
checkpoint-252/config.json ADDED
@@ -0,0 +1,23 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "GenetikaPlus/binary_classification_model_v3.1.3_spines",
3
+ "architectures": [
4
+ "ViTForImageClassification"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.0,
7
+ "encoder_stride": 16,
8
+ "hidden_act": "gelu",
9
+ "hidden_dropout_prob": 0.0,
10
+ "hidden_size": 256,
11
+ "image_size": 32,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 512,
14
+ "layer_norm_eps": 1e-12,
15
+ "model_type": "vit",
16
+ "num_attention_heads": 8,
17
+ "num_channels": 3,
18
+ "num_hidden_layers": 4,
19
+ "patch_size": 4,
20
+ "qkv_bias": true,
21
+ "torch_dtype": "float32",
22
+ "transformers_version": "4.46.2"
23
+ }
checkpoint-252/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dbe878e912b9c485efa500f04a68eee9581442a6da571a687020bd06096011d6
3
+ size 8563512
checkpoint-252/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5895f266004da80d54c48eeb719a0d9cce3244a59370d4d37e6db6f16574b69b
3
+ size 17171514
checkpoint-252/preprocessor_config.json ADDED
@@ -0,0 +1,22 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "do_normalize": true,
3
+ "do_rescale": true,
4
+ "do_resize": false,
5
+ "image_mean": [
6
+ 0.5,
7
+ 0.5,
8
+ 0.5
9
+ ],
10
+ "image_processor_type": "ViTFeatureExtractor",
11
+ "image_std": [
12
+ 0.5,
13
+ 0.5,
14
+ 0.5
15
+ ],
16
+ "resample": 2,
17
+ "rescale_factor": 0.00392156862745098,
18
+ "size": {
19
+ "height": 32,
20
+ "width": 32
21
+ }
22
+ }
checkpoint-252/rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5773da530e74b4eb1c762c1159a5b4b42f867e42025fb298db7543766e0d2da1
3
+ size 14244
checkpoint-252/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7b6cfabc855b726101d507f53934d36b2a56d5794a0a749a646e51b3f7bf4e26
3
+ size 1000
checkpoint-252/trainer_state.json ADDED
@@ -0,0 +1,2133 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.8,
3
+ "best_model_checkpoint": "/tmp/logs/binary_classification_model_v3.1.5_spines/checkpoint-252",
4
+ "epoch": 28.0,
5
+ "eval_steps": 500,
6
+ "global_step": 252,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.1111111111111111,
13
+ "grad_norm": 456393.71875,
14
+ "learning_rate": 1.148369315571888e-10,
15
+ "loss": 0.397,
16
+ "step": 1
17
+ },
18
+ {
19
+ "epoch": 0.2222222222222222,
20
+ "grad_norm": 507804.75,
21
+ "learning_rate": 2.296738631143776e-10,
22
+ "loss": 0.4283,
23
+ "step": 2
24
+ },
25
+ {
26
+ "epoch": 0.3333333333333333,
27
+ "grad_norm": 342309.34375,
28
+ "learning_rate": 3.445107946715664e-10,
29
+ "loss": 0.4275,
30
+ "step": 3
31
+ },
32
+ {
33
+ "epoch": 0.4444444444444444,
34
+ "grad_norm": 458123.6875,
35
+ "learning_rate": 4.593477262287552e-10,
36
+ "loss": 0.4012,
37
+ "step": 4
38
+ },
39
+ {
40
+ "epoch": 0.5555555555555556,
41
+ "grad_norm": 295167.625,
42
+ "learning_rate": 5.74184657785944e-10,
43
+ "loss": 0.3851,
44
+ "step": 5
45
+ },
46
+ {
47
+ "epoch": 0.6666666666666666,
48
+ "grad_norm": 357707.125,
49
+ "learning_rate": 6.890215893431328e-10,
50
+ "loss": 0.397,
51
+ "step": 6
52
+ },
53
+ {
54
+ "epoch": 0.7777777777777778,
55
+ "grad_norm": 307618.03125,
56
+ "learning_rate": 8.038585209003217e-10,
57
+ "loss": 0.3935,
58
+ "step": 7
59
+ },
60
+ {
61
+ "epoch": 0.8888888888888888,
62
+ "grad_norm": 311204.9375,
63
+ "learning_rate": 9.186954524575104e-10,
64
+ "loss": 0.4009,
65
+ "step": 8
66
+ },
67
+ {
68
+ "epoch": 1.0,
69
+ "grad_norm": 720027.375,
70
+ "learning_rate": 1.033532384014699e-09,
71
+ "loss": 0.404,
72
+ "step": 9
73
+ },
74
+ {
75
+ "epoch": 1.0,
76
+ "eval_accuracy": 0.8066146072576941,
77
+ "eval_f1": 0.7878024193548387,
78
+ "eval_loss": 0.41061264276504517,
79
+ "eval_precision": 0.8274219163578613,
80
+ "eval_recall": 0.7518037518037518,
81
+ "eval_runtime": 2.9961,
82
+ "eval_samples_per_second": 1453.223,
83
+ "eval_steps_per_second": 1.001,
84
+ "step": 9
85
+ },
86
+ {
87
+ "epoch": 1.1111111111111112,
88
+ "grad_norm": 498179.78125,
89
+ "learning_rate": 1.148369315571888e-09,
90
+ "loss": 0.4095,
91
+ "step": 10
92
+ },
93
+ {
94
+ "epoch": 1.2222222222222223,
95
+ "grad_norm": 290873.78125,
96
+ "learning_rate": 1.2632062471290768e-09,
97
+ "loss": 0.4043,
98
+ "step": 11
99
+ },
100
+ {
101
+ "epoch": 1.3333333333333333,
102
+ "grad_norm": 565174.3125,
103
+ "learning_rate": 1.3780431786862656e-09,
104
+ "loss": 0.4174,
105
+ "step": 12
106
+ },
107
+ {
108
+ "epoch": 1.4444444444444444,
109
+ "grad_norm": 415411.8125,
110
+ "learning_rate": 1.4928801102434545e-09,
111
+ "loss": 0.3997,
112
+ "step": 13
113
+ },
114
+ {
115
+ "epoch": 1.5555555555555556,
116
+ "grad_norm": 369371.40625,
117
+ "learning_rate": 1.6077170418006433e-09,
118
+ "loss": 0.387,
119
+ "step": 14
120
+ },
121
+ {
122
+ "epoch": 1.6666666666666665,
123
+ "grad_norm": 250896.09375,
124
+ "learning_rate": 1.7225539733578319e-09,
125
+ "loss": 0.4132,
126
+ "step": 15
127
+ },
128
+ {
129
+ "epoch": 1.7777777777777777,
130
+ "grad_norm": 308713.34375,
131
+ "learning_rate": 1.8373909049150208e-09,
132
+ "loss": 0.4175,
133
+ "step": 16
134
+ },
135
+ {
136
+ "epoch": 1.8888888888888888,
137
+ "grad_norm": 381976.65625,
138
+ "learning_rate": 1.95222783647221e-09,
139
+ "loss": 0.3941,
140
+ "step": 17
141
+ },
142
+ {
143
+ "epoch": 2.0,
144
+ "grad_norm": 236604.359375,
145
+ "learning_rate": 2.067064768029398e-09,
146
+ "loss": 0.4156,
147
+ "step": 18
148
+ },
149
+ {
150
+ "epoch": 2.0,
151
+ "eval_accuracy": 0.8068442811208084,
152
+ "eval_f1": 0.7881078357268834,
153
+ "eval_loss": 0.41057315468788147,
154
+ "eval_precision": 0.8275132275132275,
155
+ "eval_recall": 0.7522847522847523,
156
+ "eval_runtime": 3.1648,
157
+ "eval_samples_per_second": 1375.763,
158
+ "eval_steps_per_second": 0.948,
159
+ "step": 18
160
+ },
161
+ {
162
+ "epoch": 2.111111111111111,
163
+ "grad_norm": 490775.53125,
164
+ "learning_rate": 2.1819016995865873e-09,
165
+ "loss": 0.4048,
166
+ "step": 19
167
+ },
168
+ {
169
+ "epoch": 2.2222222222222223,
170
+ "grad_norm": 272529.0625,
171
+ "learning_rate": 2.296738631143776e-09,
172
+ "loss": 0.419,
173
+ "step": 20
174
+ },
175
+ {
176
+ "epoch": 2.3333333333333335,
177
+ "grad_norm": 489697.5,
178
+ "learning_rate": 2.411575562700965e-09,
179
+ "loss": 0.4171,
180
+ "step": 21
181
+ },
182
+ {
183
+ "epoch": 2.4444444444444446,
184
+ "grad_norm": 312067.78125,
185
+ "learning_rate": 2.5264124942581536e-09,
186
+ "loss": 0.3963,
187
+ "step": 22
188
+ },
189
+ {
190
+ "epoch": 2.5555555555555554,
191
+ "grad_norm": 387958.1875,
192
+ "learning_rate": 2.6412494258153424e-09,
193
+ "loss": 0.4141,
194
+ "step": 23
195
+ },
196
+ {
197
+ "epoch": 2.6666666666666665,
198
+ "grad_norm": 421681.21875,
199
+ "learning_rate": 2.756086357372531e-09,
200
+ "loss": 0.3882,
201
+ "step": 24
202
+ },
203
+ {
204
+ "epoch": 2.7777777777777777,
205
+ "grad_norm": 357250.75,
206
+ "learning_rate": 2.87092328892972e-09,
207
+ "loss": 0.4031,
208
+ "step": 25
209
+ },
210
+ {
211
+ "epoch": 2.888888888888889,
212
+ "grad_norm": 423132.46875,
213
+ "learning_rate": 2.985760220486909e-09,
214
+ "loss": 0.414,
215
+ "step": 26
216
+ },
217
+ {
218
+ "epoch": 3.0,
219
+ "grad_norm": 283076.28125,
220
+ "learning_rate": 3.100597152044098e-09,
221
+ "loss": 0.3811,
222
+ "step": 27
223
+ },
224
+ {
225
+ "epoch": 3.0,
226
+ "eval_accuracy": 0.8063849333945797,
227
+ "eval_f1": 0.7878177699471433,
228
+ "eval_loss": 0.4105064272880554,
229
+ "eval_precision": 0.8262935586061246,
230
+ "eval_recall": 0.7527657527657527,
231
+ "eval_runtime": 3.2358,
232
+ "eval_samples_per_second": 1345.576,
233
+ "eval_steps_per_second": 0.927,
234
+ "step": 27
235
+ },
236
+ {
237
+ "epoch": 3.111111111111111,
238
+ "grad_norm": 409029.15625,
239
+ "learning_rate": 3.2154340836012866e-09,
240
+ "loss": 0.4026,
241
+ "step": 28
242
+ },
243
+ {
244
+ "epoch": 3.2222222222222223,
245
+ "grad_norm": 472187.0625,
246
+ "learning_rate": 3.3302710151584754e-09,
247
+ "loss": 0.3859,
248
+ "step": 29
249
+ },
250
+ {
251
+ "epoch": 3.3333333333333335,
252
+ "grad_norm": 229800.890625,
253
+ "learning_rate": 3.4451079467156637e-09,
254
+ "loss": 0.4057,
255
+ "step": 30
256
+ },
257
+ {
258
+ "epoch": 3.4444444444444446,
259
+ "grad_norm": 386687.78125,
260
+ "learning_rate": 3.5599448782728525e-09,
261
+ "loss": 0.397,
262
+ "step": 31
263
+ },
264
+ {
265
+ "epoch": 3.5555555555555554,
266
+ "grad_norm": 280445.84375,
267
+ "learning_rate": 3.6747818098300417e-09,
268
+ "loss": 0.4133,
269
+ "step": 32
270
+ },
271
+ {
272
+ "epoch": 3.6666666666666665,
273
+ "grad_norm": 490347.75,
274
+ "learning_rate": 3.7896187413872304e-09,
275
+ "loss": 0.4061,
276
+ "step": 33
277
+ },
278
+ {
279
+ "epoch": 3.7777777777777777,
280
+ "grad_norm": 484259.71875,
281
+ "learning_rate": 3.90445567294442e-09,
282
+ "loss": 0.3872,
283
+ "step": 34
284
+ },
285
+ {
286
+ "epoch": 3.888888888888889,
287
+ "grad_norm": 415715.5625,
288
+ "learning_rate": 4.019292604501608e-09,
289
+ "loss": 0.419,
290
+ "step": 35
291
+ },
292
+ {
293
+ "epoch": 4.0,
294
+ "grad_norm": 256996.140625,
295
+ "learning_rate": 4.134129536058796e-09,
296
+ "loss": 0.4032,
297
+ "step": 36
298
+ },
299
+ {
300
+ "epoch": 4.0,
301
+ "eval_accuracy": 0.8063849333945797,
302
+ "eval_f1": 0.7879245283018868,
303
+ "eval_loss": 0.4104115068912506,
304
+ "eval_precision": 0.8259493670886076,
305
+ "eval_recall": 0.7532467532467533,
306
+ "eval_runtime": 3.3192,
307
+ "eval_samples_per_second": 1311.755,
308
+ "eval_steps_per_second": 0.904,
309
+ "step": 36
310
+ },
311
+ {
312
+ "epoch": 4.111111111111111,
313
+ "grad_norm": 315028.59375,
314
+ "learning_rate": 4.2489664676159855e-09,
315
+ "loss": 0.4157,
316
+ "step": 37
317
+ },
318
+ {
319
+ "epoch": 4.222222222222222,
320
+ "grad_norm": 308553.3125,
321
+ "learning_rate": 4.363803399173175e-09,
322
+ "loss": 0.4248,
323
+ "step": 38
324
+ },
325
+ {
326
+ "epoch": 4.333333333333333,
327
+ "grad_norm": 313868.625,
328
+ "learning_rate": 4.478640330730363e-09,
329
+ "loss": 0.3864,
330
+ "step": 39
331
+ },
332
+ {
333
+ "epoch": 4.444444444444445,
334
+ "grad_norm": 337871.21875,
335
+ "learning_rate": 4.593477262287552e-09,
336
+ "loss": 0.4008,
337
+ "step": 40
338
+ },
339
+ {
340
+ "epoch": 4.555555555555555,
341
+ "grad_norm": 510693.46875,
342
+ "learning_rate": 4.7083141938447406e-09,
343
+ "loss": 0.4053,
344
+ "step": 41
345
+ },
346
+ {
347
+ "epoch": 4.666666666666667,
348
+ "grad_norm": 265638.21875,
349
+ "learning_rate": 4.82315112540193e-09,
350
+ "loss": 0.4019,
351
+ "step": 42
352
+ },
353
+ {
354
+ "epoch": 4.777777777777778,
355
+ "grad_norm": 454671.5,
356
+ "learning_rate": 4.937988056959119e-09,
357
+ "loss": 0.4004,
358
+ "step": 43
359
+ },
360
+ {
361
+ "epoch": 4.888888888888889,
362
+ "grad_norm": 384609.46875,
363
+ "learning_rate": 5.052824988516307e-09,
364
+ "loss": 0.3831,
365
+ "step": 44
366
+ },
367
+ {
368
+ "epoch": 5.0,
369
+ "grad_norm": 576690.625,
370
+ "learning_rate": 5.1676619200734964e-09,
371
+ "loss": 0.4544,
372
+ "step": 45
373
+ },
374
+ {
375
+ "epoch": 5.0,
376
+ "eval_accuracy": 0.8068442811208084,
377
+ "eval_f1": 0.7886403618999749,
378
+ "eval_loss": 0.410297155380249,
379
+ "eval_precision": 0.8257894736842105,
380
+ "eval_recall": 0.7546897546897547,
381
+ "eval_runtime": 3.6141,
382
+ "eval_samples_per_second": 1204.736,
383
+ "eval_steps_per_second": 0.83,
384
+ "step": 45
385
+ },
386
+ {
387
+ "epoch": 5.111111111111111,
388
+ "grad_norm": 268056.25,
389
+ "learning_rate": 5.282498851630685e-09,
390
+ "loss": 0.4078,
391
+ "step": 46
392
+ },
393
+ {
394
+ "epoch": 5.222222222222222,
395
+ "grad_norm": 349917.96875,
396
+ "learning_rate": 5.397335783187874e-09,
397
+ "loss": 0.3682,
398
+ "step": 47
399
+ },
400
+ {
401
+ "epoch": 5.333333333333333,
402
+ "grad_norm": 334901.15625,
403
+ "learning_rate": 5.512172714745062e-09,
404
+ "loss": 0.3995,
405
+ "step": 48
406
+ },
407
+ {
408
+ "epoch": 5.444444444444445,
409
+ "grad_norm": 469042.4375,
410
+ "learning_rate": 5.627009646302251e-09,
411
+ "loss": 0.4276,
412
+ "step": 49
413
+ },
414
+ {
415
+ "epoch": 5.555555555555555,
416
+ "grad_norm": 250734.765625,
417
+ "learning_rate": 5.74184657785944e-09,
418
+ "loss": 0.3969,
419
+ "step": 50
420
+ },
421
+ {
422
+ "epoch": 5.666666666666667,
423
+ "grad_norm": 375891.0,
424
+ "learning_rate": 5.856683509416628e-09,
425
+ "loss": 0.397,
426
+ "step": 51
427
+ },
428
+ {
429
+ "epoch": 5.777777777777778,
430
+ "grad_norm": 478341.78125,
431
+ "learning_rate": 5.971520440973818e-09,
432
+ "loss": 0.4009,
433
+ "step": 52
434
+ },
435
+ {
436
+ "epoch": 5.888888888888889,
437
+ "grad_norm": 276739.6875,
438
+ "learning_rate": 6.0863573725310065e-09,
439
+ "loss": 0.4079,
440
+ "step": 53
441
+ },
442
+ {
443
+ "epoch": 6.0,
444
+ "grad_norm": 506429.59375,
445
+ "learning_rate": 6.201194304088196e-09,
446
+ "loss": 0.4062,
447
+ "step": 54
448
+ },
449
+ {
450
+ "epoch": 6.0,
451
+ "eval_accuracy": 0.8068442811208084,
452
+ "eval_f1": 0.7887465460939462,
453
+ "eval_loss": 0.41015708446502686,
454
+ "eval_precision": 0.825446898002103,
455
+ "eval_recall": 0.7551707551707552,
456
+ "eval_runtime": 3.3917,
457
+ "eval_samples_per_second": 1283.727,
458
+ "eval_steps_per_second": 0.885,
459
+ "step": 54
460
+ },
461
+ {
462
+ "epoch": 6.111111111111111,
463
+ "grad_norm": 411659.09375,
464
+ "learning_rate": 6.316031235645384e-09,
465
+ "loss": 0.3962,
466
+ "step": 55
467
+ },
468
+ {
469
+ "epoch": 6.222222222222222,
470
+ "grad_norm": 371713.75,
471
+ "learning_rate": 6.430868167202573e-09,
472
+ "loss": 0.4098,
473
+ "step": 56
474
+ },
475
+ {
476
+ "epoch": 6.333333333333333,
477
+ "grad_norm": 326940.0,
478
+ "learning_rate": 6.545705098759762e-09,
479
+ "loss": 0.3976,
480
+ "step": 57
481
+ },
482
+ {
483
+ "epoch": 6.444444444444445,
484
+ "grad_norm": 485655.625,
485
+ "learning_rate": 6.660542030316951e-09,
486
+ "loss": 0.3864,
487
+ "step": 58
488
+ },
489
+ {
490
+ "epoch": 6.555555555555555,
491
+ "grad_norm": 226484.421875,
492
+ "learning_rate": 6.775378961874139e-09,
493
+ "loss": 0.4179,
494
+ "step": 59
495
+ },
496
+ {
497
+ "epoch": 6.666666666666667,
498
+ "grad_norm": 236230.21875,
499
+ "learning_rate": 6.8902158934313275e-09,
500
+ "loss": 0.3837,
501
+ "step": 60
502
+ },
503
+ {
504
+ "epoch": 6.777777777777778,
505
+ "grad_norm": 397832.65625,
506
+ "learning_rate": 7.005052824988517e-09,
507
+ "loss": 0.4243,
508
+ "step": 61
509
+ },
510
+ {
511
+ "epoch": 6.888888888888889,
512
+ "grad_norm": 426641.34375,
513
+ "learning_rate": 7.119889756545705e-09,
514
+ "loss": 0.4059,
515
+ "step": 62
516
+ },
517
+ {
518
+ "epoch": 7.0,
519
+ "grad_norm": 453001.25,
520
+ "learning_rate": 7.234726688102894e-09,
521
+ "loss": 0.3995,
522
+ "step": 63
523
+ },
524
+ {
525
+ "epoch": 7.0,
526
+ "eval_accuracy": 0.8086816720257235,
527
+ "eval_f1": 0.7911757332664828,
528
+ "eval_loss": 0.4099947512149811,
529
+ "eval_precision": 0.8261780104712042,
530
+ "eval_recall": 0.759018759018759,
531
+ "eval_runtime": 3.4242,
532
+ "eval_samples_per_second": 1271.531,
533
+ "eval_steps_per_second": 0.876,
534
+ "step": 63
535
+ },
536
+ {
537
+ "epoch": 7.111111111111111,
538
+ "grad_norm": 393810.0625,
539
+ "learning_rate": 7.349563619660083e-09,
540
+ "loss": 0.4114,
541
+ "step": 64
542
+ },
543
+ {
544
+ "epoch": 7.222222222222222,
545
+ "grad_norm": 564651.5,
546
+ "learning_rate": 7.464400551217272e-09,
547
+ "loss": 0.4045,
548
+ "step": 65
549
+ },
550
+ {
551
+ "epoch": 7.333333333333333,
552
+ "grad_norm": 334889.15625,
553
+ "learning_rate": 7.579237482774461e-09,
554
+ "loss": 0.3991,
555
+ "step": 66
556
+ },
557
+ {
558
+ "epoch": 7.444444444444445,
559
+ "grad_norm": 442494.65625,
560
+ "learning_rate": 7.69407441433165e-09,
561
+ "loss": 0.4092,
562
+ "step": 67
563
+ },
564
+ {
565
+ "epoch": 7.555555555555555,
566
+ "grad_norm": 306049.78125,
567
+ "learning_rate": 7.80891134588884e-09,
568
+ "loss": 0.4193,
569
+ "step": 68
570
+ },
571
+ {
572
+ "epoch": 7.666666666666667,
573
+ "grad_norm": 352232.0,
574
+ "learning_rate": 7.923748277446027e-09,
575
+ "loss": 0.4045,
576
+ "step": 69
577
+ },
578
+ {
579
+ "epoch": 7.777777777777778,
580
+ "grad_norm": 307979.75,
581
+ "learning_rate": 8.038585209003216e-09,
582
+ "loss": 0.4155,
583
+ "step": 70
584
+ },
585
+ {
586
+ "epoch": 7.888888888888889,
587
+ "grad_norm": 303762.40625,
588
+ "learning_rate": 8.153422140560405e-09,
589
+ "loss": 0.3984,
590
+ "step": 71
591
+ },
592
+ {
593
+ "epoch": 8.0,
594
+ "grad_norm": 312884.09375,
595
+ "learning_rate": 8.268259072117593e-09,
596
+ "loss": 0.3727,
597
+ "step": 72
598
+ },
599
+ {
600
+ "epoch": 8.0,
601
+ "eval_accuracy": 0.808451998162609,
602
+ "eval_f1": 0.7910821643286573,
603
+ "eval_loss": 0.40981706976890564,
604
+ "eval_precision": 0.825405122843701,
605
+ "eval_recall": 0.7594997594997595,
606
+ "eval_runtime": 3.4777,
607
+ "eval_samples_per_second": 1251.968,
608
+ "eval_steps_per_second": 0.863,
609
+ "step": 72
610
+ },
611
+ {
612
+ "epoch": 8.11111111111111,
613
+ "grad_norm": 440070.125,
614
+ "learning_rate": 8.383096003674782e-09,
615
+ "loss": 0.3895,
616
+ "step": 73
617
+ },
618
+ {
619
+ "epoch": 8.222222222222221,
620
+ "grad_norm": 386623.9375,
621
+ "learning_rate": 8.497932935231971e-09,
622
+ "loss": 0.4174,
623
+ "step": 74
624
+ },
625
+ {
626
+ "epoch": 8.333333333333334,
627
+ "grad_norm": 328681.78125,
628
+ "learning_rate": 8.61276986678916e-09,
629
+ "loss": 0.4159,
630
+ "step": 75
631
+ },
632
+ {
633
+ "epoch": 8.444444444444445,
634
+ "grad_norm": 461431.71875,
635
+ "learning_rate": 8.72760679834635e-09,
636
+ "loss": 0.3981,
637
+ "step": 76
638
+ },
639
+ {
640
+ "epoch": 8.555555555555555,
641
+ "grad_norm": 348082.03125,
642
+ "learning_rate": 8.842443729903539e-09,
643
+ "loss": 0.4273,
644
+ "step": 77
645
+ },
646
+ {
647
+ "epoch": 8.666666666666666,
648
+ "grad_norm": 242071.75,
649
+ "learning_rate": 8.957280661460726e-09,
650
+ "loss": 0.4121,
651
+ "step": 78
652
+ },
653
+ {
654
+ "epoch": 8.777777777777779,
655
+ "grad_norm": 213607.15625,
656
+ "learning_rate": 9.072117593017915e-09,
657
+ "loss": 0.3839,
658
+ "step": 79
659
+ },
660
+ {
661
+ "epoch": 8.88888888888889,
662
+ "grad_norm": 206478.359375,
663
+ "learning_rate": 9.186954524575104e-09,
664
+ "loss": 0.3753,
665
+ "step": 80
666
+ },
667
+ {
668
+ "epoch": 9.0,
669
+ "grad_norm": 194609.3125,
670
+ "learning_rate": 9.301791456132294e-09,
671
+ "loss": 0.3988,
672
+ "step": 81
673
+ },
674
+ {
675
+ "epoch": 9.0,
676
+ "eval_accuracy": 0.808451998162609,
677
+ "eval_f1": 0.7912912912912913,
678
+ "eval_loss": 0.409627765417099,
679
+ "eval_precision": 0.8247261345852895,
680
+ "eval_recall": 0.7604617604617605,
681
+ "eval_runtime": 3.5371,
682
+ "eval_samples_per_second": 1230.936,
683
+ "eval_steps_per_second": 0.848,
684
+ "step": 81
685
+ },
686
+ {
687
+ "epoch": 9.11111111111111,
688
+ "grad_norm": 561483.3125,
689
+ "learning_rate": 9.416628387689481e-09,
690
+ "loss": 0.4005,
691
+ "step": 82
692
+ },
693
+ {
694
+ "epoch": 9.222222222222221,
695
+ "grad_norm": 225070.078125,
696
+ "learning_rate": 9.53146531924667e-09,
697
+ "loss": 0.3984,
698
+ "step": 83
699
+ },
700
+ {
701
+ "epoch": 9.333333333333334,
702
+ "grad_norm": 327914.65625,
703
+ "learning_rate": 9.64630225080386e-09,
704
+ "loss": 0.4252,
705
+ "step": 84
706
+ },
707
+ {
708
+ "epoch": 9.444444444444445,
709
+ "grad_norm": 334806.53125,
710
+ "learning_rate": 9.761139182361047e-09,
711
+ "loss": 0.3961,
712
+ "step": 85
713
+ },
714
+ {
715
+ "epoch": 9.555555555555555,
716
+ "grad_norm": 422189.59375,
717
+ "learning_rate": 9.875976113918238e-09,
718
+ "loss": 0.3975,
719
+ "step": 86
720
+ },
721
+ {
722
+ "epoch": 9.666666666666666,
723
+ "grad_norm": 425266.5625,
724
+ "learning_rate": 9.990813045475427e-09,
725
+ "loss": 0.4352,
726
+ "step": 87
727
+ },
728
+ {
729
+ "epoch": 9.777777777777779,
730
+ "grad_norm": 312599.34375,
731
+ "learning_rate": 1.0105649977032615e-08,
732
+ "loss": 0.4063,
733
+ "step": 88
734
+ },
735
+ {
736
+ "epoch": 9.88888888888889,
737
+ "grad_norm": 318109.625,
738
+ "learning_rate": 1.0220486908589804e-08,
739
+ "loss": 0.4041,
740
+ "step": 89
741
+ },
742
+ {
743
+ "epoch": 10.0,
744
+ "grad_norm": 132810.046875,
745
+ "learning_rate": 1.0335323840146993e-08,
746
+ "loss": 0.3777,
747
+ "step": 90
748
+ },
749
+ {
750
+ "epoch": 10.0,
751
+ "eval_accuracy": 0.8091410197519522,
752
+ "eval_f1": 0.7924056957282039,
753
+ "eval_loss": 0.40942761301994324,
754
+ "eval_precision": 0.8243243243243243,
755
+ "eval_recall": 0.7628667628667629,
756
+ "eval_runtime": 3.8583,
757
+ "eval_samples_per_second": 1128.481,
758
+ "eval_steps_per_second": 0.778,
759
+ "step": 90
760
+ },
761
+ {
762
+ "epoch": 10.11111111111111,
763
+ "grad_norm": 166400.25,
764
+ "learning_rate": 1.045016077170418e-08,
765
+ "loss": 0.401,
766
+ "step": 91
767
+ },
768
+ {
769
+ "epoch": 10.222222222222221,
770
+ "grad_norm": 305970.1875,
771
+ "learning_rate": 1.056499770326137e-08,
772
+ "loss": 0.3924,
773
+ "step": 92
774
+ },
775
+ {
776
+ "epoch": 10.333333333333334,
777
+ "grad_norm": 409570.40625,
778
+ "learning_rate": 1.0679834634818559e-08,
779
+ "loss": 0.4085,
780
+ "step": 93
781
+ },
782
+ {
783
+ "epoch": 10.444444444444445,
784
+ "grad_norm": 282469.40625,
785
+ "learning_rate": 1.0794671566375748e-08,
786
+ "loss": 0.3878,
787
+ "step": 94
788
+ },
789
+ {
790
+ "epoch": 10.555555555555555,
791
+ "grad_norm": 223962.640625,
792
+ "learning_rate": 1.0909508497932935e-08,
793
+ "loss": 0.3986,
794
+ "step": 95
795
+ },
796
+ {
797
+ "epoch": 10.666666666666666,
798
+ "grad_norm": 408710.5625,
799
+ "learning_rate": 1.1024345429490125e-08,
800
+ "loss": 0.4301,
801
+ "step": 96
802
+ },
803
+ {
804
+ "epoch": 10.777777777777779,
805
+ "grad_norm": 156632.640625,
806
+ "learning_rate": 1.1139182361047314e-08,
807
+ "loss": 0.3915,
808
+ "step": 97
809
+ },
810
+ {
811
+ "epoch": 10.88888888888889,
812
+ "grad_norm": 376189.65625,
813
+ "learning_rate": 1.1254019292604501e-08,
814
+ "loss": 0.4031,
815
+ "step": 98
816
+ },
817
+ {
818
+ "epoch": 11.0,
819
+ "grad_norm": 119827.9453125,
820
+ "learning_rate": 1.136885622416169e-08,
821
+ "loss": 0.4026,
822
+ "step": 99
823
+ },
824
+ {
825
+ "epoch": 11.0,
826
+ "eval_accuracy": 0.8098300413412953,
827
+ "eval_f1": 0.7933100349475787,
828
+ "eval_loss": 0.4092212915420532,
829
+ "eval_precision": 0.8245978204462896,
830
+ "eval_recall": 0.7643097643097643,
831
+ "eval_runtime": 3.6143,
832
+ "eval_samples_per_second": 1204.659,
833
+ "eval_steps_per_second": 0.83,
834
+ "step": 99
835
+ },
836
+ {
837
+ "epoch": 11.11111111111111,
838
+ "grad_norm": 289736.1875,
839
+ "learning_rate": 1.148369315571888e-08,
840
+ "loss": 0.4042,
841
+ "step": 100
842
+ },
843
+ {
844
+ "epoch": 11.222222222222221,
845
+ "grad_norm": 194127.875,
846
+ "learning_rate": 1.1598530087276069e-08,
847
+ "loss": 0.4082,
848
+ "step": 101
849
+ },
850
+ {
851
+ "epoch": 11.333333333333334,
852
+ "grad_norm": 383586.8125,
853
+ "learning_rate": 1.1713367018833256e-08,
854
+ "loss": 0.4196,
855
+ "step": 102
856
+ },
857
+ {
858
+ "epoch": 11.444444444444445,
859
+ "grad_norm": 309528.40625,
860
+ "learning_rate": 1.1828203950390446e-08,
861
+ "loss": 0.4009,
862
+ "step": 103
863
+ },
864
+ {
865
+ "epoch": 11.555555555555555,
866
+ "grad_norm": 275662.09375,
867
+ "learning_rate": 1.1943040881947636e-08,
868
+ "loss": 0.3864,
869
+ "step": 104
870
+ },
871
+ {
872
+ "epoch": 11.666666666666666,
873
+ "grad_norm": 240105.71875,
874
+ "learning_rate": 1.2057877813504826e-08,
875
+ "loss": 0.4044,
876
+ "step": 105
877
+ },
878
+ {
879
+ "epoch": 11.777777777777779,
880
+ "grad_norm": 449321.34375,
881
+ "learning_rate": 1.2172714745062013e-08,
882
+ "loss": 0.3972,
883
+ "step": 106
884
+ },
885
+ {
886
+ "epoch": 11.88888888888889,
887
+ "grad_norm": 420052.9375,
888
+ "learning_rate": 1.2287551676619202e-08,
889
+ "loss": 0.4077,
890
+ "step": 107
891
+ },
892
+ {
893
+ "epoch": 12.0,
894
+ "grad_norm": 200356.359375,
895
+ "learning_rate": 1.2402388608176391e-08,
896
+ "loss": 0.4241,
897
+ "step": 108
898
+ },
899
+ {
900
+ "epoch": 12.0,
901
+ "eval_accuracy": 0.8107487367937529,
902
+ "eval_f1": 0.7948207171314741,
903
+ "eval_loss": 0.4090159237384796,
904
+ "eval_precision": 0.8239545689210118,
905
+ "eval_recall": 0.7676767676767676,
906
+ "eval_runtime": 3.6992,
907
+ "eval_samples_per_second": 1177.009,
908
+ "eval_steps_per_second": 0.811,
909
+ "step": 108
910
+ },
911
+ {
912
+ "epoch": 12.11111111111111,
913
+ "grad_norm": 208306.484375,
914
+ "learning_rate": 1.251722553973358e-08,
915
+ "loss": 0.3955,
916
+ "step": 109
917
+ },
918
+ {
919
+ "epoch": 12.222222222222221,
920
+ "grad_norm": 58767.4453125,
921
+ "learning_rate": 1.2632062471290768e-08,
922
+ "loss": 0.4038,
923
+ "step": 110
924
+ },
925
+ {
926
+ "epoch": 12.333333333333334,
927
+ "grad_norm": 176059.9375,
928
+ "learning_rate": 1.2746899402847957e-08,
929
+ "loss": 0.4034,
930
+ "step": 111
931
+ },
932
+ {
933
+ "epoch": 12.444444444444445,
934
+ "grad_norm": 290994.40625,
935
+ "learning_rate": 1.2861736334405147e-08,
936
+ "loss": 0.4001,
937
+ "step": 112
938
+ },
939
+ {
940
+ "epoch": 12.555555555555555,
941
+ "grad_norm": 211688.546875,
942
+ "learning_rate": 1.2976573265962334e-08,
943
+ "loss": 0.3999,
944
+ "step": 113
945
+ },
946
+ {
947
+ "epoch": 12.666666666666666,
948
+ "grad_norm": 219369.5,
949
+ "learning_rate": 1.3091410197519523e-08,
950
+ "loss": 0.3917,
951
+ "step": 114
952
+ },
953
+ {
954
+ "epoch": 12.777777777777779,
955
+ "grad_norm": 401543.40625,
956
+ "learning_rate": 1.3206247129076712e-08,
957
+ "loss": 0.4041,
958
+ "step": 115
959
+ },
960
+ {
961
+ "epoch": 12.88888888888889,
962
+ "grad_norm": 362102.40625,
963
+ "learning_rate": 1.3321084060633902e-08,
964
+ "loss": 0.4154,
965
+ "step": 116
966
+ },
967
+ {
968
+ "epoch": 13.0,
969
+ "grad_norm": 477879.5,
970
+ "learning_rate": 1.3435920992191089e-08,
971
+ "loss": 0.3709,
972
+ "step": 117
973
+ },
974
+ {
975
+ "epoch": 13.0,
976
+ "eval_accuracy": 0.8107487367937529,
977
+ "eval_f1": 0.7950248756218905,
978
+ "eval_loss": 0.4088153839111328,
979
+ "eval_precision": 0.8232869654817104,
980
+ "eval_recall": 0.7686387686387687,
981
+ "eval_runtime": 3.7239,
982
+ "eval_samples_per_second": 1169.192,
983
+ "eval_steps_per_second": 0.806,
984
+ "step": 117
985
+ },
986
+ {
987
+ "epoch": 13.11111111111111,
988
+ "grad_norm": 235991.40625,
989
+ "learning_rate": 1.3550757923748278e-08,
990
+ "loss": 0.414,
991
+ "step": 118
992
+ },
993
+ {
994
+ "epoch": 13.222222222222221,
995
+ "grad_norm": 95655.484375,
996
+ "learning_rate": 1.3665594855305467e-08,
997
+ "loss": 0.3927,
998
+ "step": 119
999
+ },
1000
+ {
1001
+ "epoch": 13.333333333333334,
1002
+ "grad_norm": 180109.375,
1003
+ "learning_rate": 1.3780431786862655e-08,
1004
+ "loss": 0.4221,
1005
+ "step": 120
1006
+ },
1007
+ {
1008
+ "epoch": 13.444444444444445,
1009
+ "grad_norm": 114767.703125,
1010
+ "learning_rate": 1.3895268718419844e-08,
1011
+ "loss": 0.3897,
1012
+ "step": 121
1013
+ },
1014
+ {
1015
+ "epoch": 13.555555555555555,
1016
+ "grad_norm": 261420.796875,
1017
+ "learning_rate": 1.4010105649977033e-08,
1018
+ "loss": 0.4083,
1019
+ "step": 122
1020
+ },
1021
+ {
1022
+ "epoch": 13.666666666666666,
1023
+ "grad_norm": 267185.46875,
1024
+ "learning_rate": 1.4124942581534222e-08,
1025
+ "loss": 0.4178,
1026
+ "step": 123
1027
+ },
1028
+ {
1029
+ "epoch": 13.777777777777779,
1030
+ "grad_norm": 433391.46875,
1031
+ "learning_rate": 1.423977951309141e-08,
1032
+ "loss": 0.3946,
1033
+ "step": 124
1034
+ },
1035
+ {
1036
+ "epoch": 13.88888888888889,
1037
+ "grad_norm": 240314.125,
1038
+ "learning_rate": 1.43546164446486e-08,
1039
+ "loss": 0.3969,
1040
+ "step": 125
1041
+ },
1042
+ {
1043
+ "epoch": 14.0,
1044
+ "grad_norm": 494791.96875,
1045
+ "learning_rate": 1.4469453376205788e-08,
1046
+ "loss": 0.422,
1047
+ "step": 126
1048
+ },
1049
+ {
1050
+ "epoch": 14.0,
1051
+ "eval_accuracy": 0.8112080845199816,
1052
+ "eval_f1": 0.7958271236959762,
1053
+ "eval_loss": 0.40861907601356506,
1054
+ "eval_precision": 0.8228043143297381,
1055
+ "eval_recall": 0.7705627705627706,
1056
+ "eval_runtime": 3.7622,
1057
+ "eval_samples_per_second": 1157.3,
1058
+ "eval_steps_per_second": 0.797,
1059
+ "step": 126
1060
+ },
1061
+ {
1062
+ "epoch": 14.11111111111111,
1063
+ "grad_norm": 230925.59375,
1064
+ "learning_rate": 1.458429030776298e-08,
1065
+ "loss": 0.4406,
1066
+ "step": 127
1067
+ },
1068
+ {
1069
+ "epoch": 14.222222222222221,
1070
+ "grad_norm": 248435.78125,
1071
+ "learning_rate": 1.4699127239320167e-08,
1072
+ "loss": 0.4152,
1073
+ "step": 128
1074
+ },
1075
+ {
1076
+ "epoch": 14.333333333333334,
1077
+ "grad_norm": 276681.65625,
1078
+ "learning_rate": 1.4813964170877356e-08,
1079
+ "loss": 0.4062,
1080
+ "step": 129
1081
+ },
1082
+ {
1083
+ "epoch": 14.444444444444445,
1084
+ "grad_norm": 119796.078125,
1085
+ "learning_rate": 1.4928801102434543e-08,
1086
+ "loss": 0.4135,
1087
+ "step": 130
1088
+ },
1089
+ {
1090
+ "epoch": 14.555555555555555,
1091
+ "grad_norm": 329935.125,
1092
+ "learning_rate": 1.5043638033991733e-08,
1093
+ "loss": 0.3937,
1094
+ "step": 131
1095
+ },
1096
+ {
1097
+ "epoch": 14.666666666666666,
1098
+ "grad_norm": 262459.5625,
1099
+ "learning_rate": 1.5158474965548922e-08,
1100
+ "loss": 0.3941,
1101
+ "step": 132
1102
+ },
1103
+ {
1104
+ "epoch": 14.777777777777779,
1105
+ "grad_norm": 105897.59375,
1106
+ "learning_rate": 1.527331189710611e-08,
1107
+ "loss": 0.3796,
1108
+ "step": 133
1109
+ },
1110
+ {
1111
+ "epoch": 14.88888888888889,
1112
+ "grad_norm": 225864.171875,
1113
+ "learning_rate": 1.53881488286633e-08,
1114
+ "loss": 0.3803,
1115
+ "step": 134
1116
+ },
1117
+ {
1118
+ "epoch": 15.0,
1119
+ "grad_norm": 341410.21875,
1120
+ "learning_rate": 1.550298576022049e-08,
1121
+ "loss": 0.4158,
1122
+ "step": 135
1123
+ },
1124
+ {
1125
+ "epoch": 15.0,
1126
+ "eval_accuracy": 0.8109784106568673,
1127
+ "eval_f1": 0.7957309506080913,
1128
+ "eval_loss": 0.40841957926750183,
1129
+ "eval_precision": 0.8220512820512821,
1130
+ "eval_recall": 0.7710437710437711,
1131
+ "eval_runtime": 3.8028,
1132
+ "eval_samples_per_second": 1144.947,
1133
+ "eval_steps_per_second": 0.789,
1134
+ "step": 135
1135
+ },
1136
+ {
1137
+ "epoch": 15.11111111111111,
1138
+ "grad_norm": 132152.578125,
1139
+ "learning_rate": 1.561782269177768e-08,
1140
+ "loss": 0.3878,
1141
+ "step": 136
1142
+ },
1143
+ {
1144
+ "epoch": 15.222222222222221,
1145
+ "grad_norm": 72833.984375,
1146
+ "learning_rate": 1.5732659623334864e-08,
1147
+ "loss": 0.4254,
1148
+ "step": 137
1149
+ },
1150
+ {
1151
+ "epoch": 15.333333333333334,
1152
+ "grad_norm": 510368.78125,
1153
+ "learning_rate": 1.5847496554892054e-08,
1154
+ "loss": 0.415,
1155
+ "step": 138
1156
+ },
1157
+ {
1158
+ "epoch": 15.444444444444445,
1159
+ "grad_norm": 288746.75,
1160
+ "learning_rate": 1.5962333486449243e-08,
1161
+ "loss": 0.3957,
1162
+ "step": 139
1163
+ },
1164
+ {
1165
+ "epoch": 15.555555555555555,
1166
+ "grad_norm": 155515.0625,
1167
+ "learning_rate": 1.6077170418006432e-08,
1168
+ "loss": 0.4078,
1169
+ "step": 140
1170
+ },
1171
+ {
1172
+ "epoch": 15.666666666666666,
1173
+ "grad_norm": 293017.9375,
1174
+ "learning_rate": 1.619200734956362e-08,
1175
+ "loss": 0.4113,
1176
+ "step": 141
1177
+ },
1178
+ {
1179
+ "epoch": 15.777777777777779,
1180
+ "grad_norm": 145871.765625,
1181
+ "learning_rate": 1.630684428112081e-08,
1182
+ "loss": 0.4132,
1183
+ "step": 142
1184
+ },
1185
+ {
1186
+ "epoch": 15.88888888888889,
1187
+ "grad_norm": 153809.59375,
1188
+ "learning_rate": 1.6421681212678e-08,
1189
+ "loss": 0.3727,
1190
+ "step": 143
1191
+ },
1192
+ {
1193
+ "epoch": 16.0,
1194
+ "grad_norm": 203934.796875,
1195
+ "learning_rate": 1.6536518144235185e-08,
1196
+ "loss": 0.4209,
1197
+ "step": 144
1198
+ },
1199
+ {
1200
+ "epoch": 16.0,
1201
+ "eval_accuracy": 0.8102893890675241,
1202
+ "eval_f1": 0.7953419226957383,
1203
+ "eval_loss": 0.40823647379875183,
1204
+ "eval_precision": 0.8201328564128768,
1205
+ "eval_recall": 0.772005772005772,
1206
+ "eval_runtime": 4.1397,
1207
+ "eval_samples_per_second": 1051.768,
1208
+ "eval_steps_per_second": 0.725,
1209
+ "step": 144
1210
+ },
1211
+ {
1212
+ "epoch": 16.11111111111111,
1213
+ "grad_norm": 201536.859375,
1214
+ "learning_rate": 1.6651355075792374e-08,
1215
+ "loss": 0.3897,
1216
+ "step": 145
1217
+ },
1218
+ {
1219
+ "epoch": 16.22222222222222,
1220
+ "grad_norm": 157509.171875,
1221
+ "learning_rate": 1.6766192007349564e-08,
1222
+ "loss": 0.4073,
1223
+ "step": 146
1224
+ },
1225
+ {
1226
+ "epoch": 16.333333333333332,
1227
+ "grad_norm": 91640.9921875,
1228
+ "learning_rate": 1.6881028938906753e-08,
1229
+ "loss": 0.3989,
1230
+ "step": 147
1231
+ },
1232
+ {
1233
+ "epoch": 16.444444444444443,
1234
+ "grad_norm": 162518.9375,
1235
+ "learning_rate": 1.6995865870463942e-08,
1236
+ "loss": 0.4077,
1237
+ "step": 148
1238
+ },
1239
+ {
1240
+ "epoch": 16.555555555555557,
1241
+ "grad_norm": 312546.71875,
1242
+ "learning_rate": 1.711070280202113e-08,
1243
+ "loss": 0.4016,
1244
+ "step": 149
1245
+ },
1246
+ {
1247
+ "epoch": 16.666666666666668,
1248
+ "grad_norm": 133448.515625,
1249
+ "learning_rate": 1.722553973357832e-08,
1250
+ "loss": 0.3874,
1251
+ "step": 150
1252
+ },
1253
+ {
1254
+ "epoch": 16.77777777777778,
1255
+ "grad_norm": 228277.046875,
1256
+ "learning_rate": 1.734037666513551e-08,
1257
+ "loss": 0.4197,
1258
+ "step": 151
1259
+ },
1260
+ {
1261
+ "epoch": 16.88888888888889,
1262
+ "grad_norm": 410443.84375,
1263
+ "learning_rate": 1.74552135966927e-08,
1264
+ "loss": 0.4011,
1265
+ "step": 152
1266
+ },
1267
+ {
1268
+ "epoch": 17.0,
1269
+ "grad_norm": 142888.328125,
1270
+ "learning_rate": 1.7570050528249888e-08,
1271
+ "loss": 0.3922,
1272
+ "step": 153
1273
+ },
1274
+ {
1275
+ "epoch": 17.0,
1276
+ "eval_accuracy": 0.811437758383096,
1277
+ "eval_f1": 0.7969329705664111,
1278
+ "eval_loss": 0.40807411074638367,
1279
+ "eval_precision": 0.820264765784114,
1280
+ "eval_recall": 0.7748917748917749,
1281
+ "eval_runtime": 3.897,
1282
+ "eval_samples_per_second": 1117.267,
1283
+ "eval_steps_per_second": 0.77,
1284
+ "step": 153
1285
+ },
1286
+ {
1287
+ "epoch": 17.11111111111111,
1288
+ "grad_norm": 114717.609375,
1289
+ "learning_rate": 1.7684887459807077e-08,
1290
+ "loss": 0.3872,
1291
+ "step": 154
1292
+ },
1293
+ {
1294
+ "epoch": 17.22222222222222,
1295
+ "grad_norm": 176862.40625,
1296
+ "learning_rate": 1.7799724391364266e-08,
1297
+ "loss": 0.4056,
1298
+ "step": 155
1299
+ },
1300
+ {
1301
+ "epoch": 17.333333333333332,
1302
+ "grad_norm": 275508.40625,
1303
+ "learning_rate": 1.7914561322921452e-08,
1304
+ "loss": 0.3976,
1305
+ "step": 156
1306
+ },
1307
+ {
1308
+ "epoch": 17.444444444444443,
1309
+ "grad_norm": 155124.390625,
1310
+ "learning_rate": 1.802939825447864e-08,
1311
+ "loss": 0.4152,
1312
+ "step": 157
1313
+ },
1314
+ {
1315
+ "epoch": 17.555555555555557,
1316
+ "grad_norm": 158142.9375,
1317
+ "learning_rate": 1.814423518603583e-08,
1318
+ "loss": 0.4046,
1319
+ "step": 158
1320
+ },
1321
+ {
1322
+ "epoch": 17.666666666666668,
1323
+ "grad_norm": 175609.71875,
1324
+ "learning_rate": 1.825907211759302e-08,
1325
+ "loss": 0.4145,
1326
+ "step": 159
1327
+ },
1328
+ {
1329
+ "epoch": 17.77777777777778,
1330
+ "grad_norm": 80656.234375,
1331
+ "learning_rate": 1.837390904915021e-08,
1332
+ "loss": 0.407,
1333
+ "step": 160
1334
+ },
1335
+ {
1336
+ "epoch": 17.88888888888889,
1337
+ "grad_norm": 82560.1171875,
1338
+ "learning_rate": 1.8488745980707398e-08,
1339
+ "loss": 0.389,
1340
+ "step": 161
1341
+ },
1342
+ {
1343
+ "epoch": 18.0,
1344
+ "grad_norm": 374558.875,
1345
+ "learning_rate": 1.8603582912264587e-08,
1346
+ "loss": 0.3957,
1347
+ "step": 162
1348
+ },
1349
+ {
1350
+ "epoch": 18.0,
1351
+ "eval_accuracy": 0.811437758383096,
1352
+ "eval_f1": 0.797133679268594,
1353
+ "eval_loss": 0.4079172611236572,
1354
+ "eval_precision": 0.8196138211382114,
1355
+ "eval_recall": 0.7758537758537759,
1356
+ "eval_runtime": 3.9317,
1357
+ "eval_samples_per_second": 1107.398,
1358
+ "eval_steps_per_second": 0.763,
1359
+ "step": 162
1360
+ },
1361
+ {
1362
+ "epoch": 18.11111111111111,
1363
+ "grad_norm": 191892.828125,
1364
+ "learning_rate": 1.8718419843821773e-08,
1365
+ "loss": 0.4017,
1366
+ "step": 163
1367
+ },
1368
+ {
1369
+ "epoch": 18.22222222222222,
1370
+ "grad_norm": 118981.9375,
1371
+ "learning_rate": 1.8833256775378962e-08,
1372
+ "loss": 0.4055,
1373
+ "step": 164
1374
+ },
1375
+ {
1376
+ "epoch": 18.333333333333332,
1377
+ "grad_norm": 253416.578125,
1378
+ "learning_rate": 1.894809370693615e-08,
1379
+ "loss": 0.3939,
1380
+ "step": 165
1381
+ },
1382
+ {
1383
+ "epoch": 18.444444444444443,
1384
+ "grad_norm": 238575.578125,
1385
+ "learning_rate": 1.906293063849334e-08,
1386
+ "loss": 0.3826,
1387
+ "step": 166
1388
+ },
1389
+ {
1390
+ "epoch": 18.555555555555557,
1391
+ "grad_norm": 124402.765625,
1392
+ "learning_rate": 1.917776757005053e-08,
1393
+ "loss": 0.4123,
1394
+ "step": 167
1395
+ },
1396
+ {
1397
+ "epoch": 18.666666666666668,
1398
+ "grad_norm": 191731.640625,
1399
+ "learning_rate": 1.929260450160772e-08,
1400
+ "loss": 0.4203,
1401
+ "step": 168
1402
+ },
1403
+ {
1404
+ "epoch": 18.77777777777778,
1405
+ "grad_norm": 133824.984375,
1406
+ "learning_rate": 1.9407441433164908e-08,
1407
+ "loss": 0.4145,
1408
+ "step": 169
1409
+ },
1410
+ {
1411
+ "epoch": 18.88888888888889,
1412
+ "grad_norm": 109809.515625,
1413
+ "learning_rate": 1.9522278364722094e-08,
1414
+ "loss": 0.3911,
1415
+ "step": 170
1416
+ },
1417
+ {
1418
+ "epoch": 19.0,
1419
+ "grad_norm": 285880.6875,
1420
+ "learning_rate": 1.9637115296279283e-08,
1421
+ "loss": 0.3963,
1422
+ "step": 171
1423
+ },
1424
+ {
1425
+ "epoch": 19.0,
1426
+ "eval_accuracy": 0.8112080845199816,
1427
+ "eval_f1": 0.7972372964972866,
1428
+ "eval_loss": 0.4077652096748352,
1429
+ "eval_precision": 0.8182278481012658,
1430
+ "eval_recall": 0.7772967772967773,
1431
+ "eval_runtime": 3.9878,
1432
+ "eval_samples_per_second": 1091.836,
1433
+ "eval_steps_per_second": 0.752,
1434
+ "step": 171
1435
+ },
1436
+ {
1437
+ "epoch": 19.11111111111111,
1438
+ "grad_norm": 261054.515625,
1439
+ "learning_rate": 1.9751952227836476e-08,
1440
+ "loss": 0.3847,
1441
+ "step": 172
1442
+ },
1443
+ {
1444
+ "epoch": 19.22222222222222,
1445
+ "grad_norm": 158484.296875,
1446
+ "learning_rate": 1.986678915939366e-08,
1447
+ "loss": 0.401,
1448
+ "step": 173
1449
+ },
1450
+ {
1451
+ "epoch": 19.333333333333332,
1452
+ "grad_norm": 85237.9765625,
1453
+ "learning_rate": 1.9981626090950854e-08,
1454
+ "loss": 0.4312,
1455
+ "step": 174
1456
+ },
1457
+ {
1458
+ "epoch": 19.444444444444443,
1459
+ "grad_norm": 280998.5,
1460
+ "learning_rate": 2.009646302250804e-08,
1461
+ "loss": 0.4048,
1462
+ "step": 175
1463
+ },
1464
+ {
1465
+ "epoch": 19.555555555555557,
1466
+ "grad_norm": 219749.75,
1467
+ "learning_rate": 2.021129995406523e-08,
1468
+ "loss": 0.4207,
1469
+ "step": 176
1470
+ },
1471
+ {
1472
+ "epoch": 19.666666666666668,
1473
+ "grad_norm": 238937.890625,
1474
+ "learning_rate": 2.0326136885622415e-08,
1475
+ "loss": 0.3747,
1476
+ "step": 177
1477
+ },
1478
+ {
1479
+ "epoch": 19.77777777777778,
1480
+ "grad_norm": 245600.234375,
1481
+ "learning_rate": 2.0440973817179607e-08,
1482
+ "loss": 0.4028,
1483
+ "step": 178
1484
+ },
1485
+ {
1486
+ "epoch": 19.88888888888889,
1487
+ "grad_norm": 144331.484375,
1488
+ "learning_rate": 2.0555810748736793e-08,
1489
+ "loss": 0.4067,
1490
+ "step": 179
1491
+ },
1492
+ {
1493
+ "epoch": 20.0,
1494
+ "grad_norm": 245784.15625,
1495
+ "learning_rate": 2.0670647680293986e-08,
1496
+ "loss": 0.3778,
1497
+ "step": 180
1498
+ },
1499
+ {
1500
+ "epoch": 20.0,
1501
+ "eval_accuracy": 0.8112080845199816,
1502
+ "eval_f1": 0.7974371611631346,
1503
+ "eval_loss": 0.4076385796070099,
1504
+ "eval_precision": 0.8175846387064174,
1505
+ "eval_recall": 0.7782587782587782,
1506
+ "eval_runtime": 4.0155,
1507
+ "eval_samples_per_second": 1084.293,
1508
+ "eval_steps_per_second": 0.747,
1509
+ "step": 180
1510
+ },
1511
+ {
1512
+ "epoch": 20.11111111111111,
1513
+ "grad_norm": 110038.1328125,
1514
+ "learning_rate": 2.078548461185117e-08,
1515
+ "loss": 0.4099,
1516
+ "step": 181
1517
+ },
1518
+ {
1519
+ "epoch": 20.22222222222222,
1520
+ "grad_norm": 113520.578125,
1521
+ "learning_rate": 2.090032154340836e-08,
1522
+ "loss": 0.4048,
1523
+ "step": 182
1524
+ },
1525
+ {
1526
+ "epoch": 20.333333333333332,
1527
+ "grad_norm": 132782.125,
1528
+ "learning_rate": 2.101515847496555e-08,
1529
+ "loss": 0.3995,
1530
+ "step": 183
1531
+ },
1532
+ {
1533
+ "epoch": 20.444444444444443,
1534
+ "grad_norm": 98626.984375,
1535
+ "learning_rate": 2.112999540652274e-08,
1536
+ "loss": 0.3966,
1537
+ "step": 184
1538
+ },
1539
+ {
1540
+ "epoch": 20.555555555555557,
1541
+ "grad_norm": 296527.78125,
1542
+ "learning_rate": 2.124483233807993e-08,
1543
+ "loss": 0.4215,
1544
+ "step": 185
1545
+ },
1546
+ {
1547
+ "epoch": 20.666666666666668,
1548
+ "grad_norm": 109782.6171875,
1549
+ "learning_rate": 2.1359669269637117e-08,
1550
+ "loss": 0.4089,
1551
+ "step": 186
1552
+ },
1553
+ {
1554
+ "epoch": 20.77777777777778,
1555
+ "grad_norm": 131173.890625,
1556
+ "learning_rate": 2.1474506201194307e-08,
1557
+ "loss": 0.4165,
1558
+ "step": 187
1559
+ },
1560
+ {
1561
+ "epoch": 20.88888888888889,
1562
+ "grad_norm": 186916.5625,
1563
+ "learning_rate": 2.1589343132751496e-08,
1564
+ "loss": 0.3851,
1565
+ "step": 188
1566
+ },
1567
+ {
1568
+ "epoch": 21.0,
1569
+ "grad_norm": 198655.515625,
1570
+ "learning_rate": 2.1704180064308685e-08,
1571
+ "loss": 0.4147,
1572
+ "step": 189
1573
+ },
1574
+ {
1575
+ "epoch": 21.0,
1576
+ "eval_accuracy": 0.8112080845199816,
1577
+ "eval_f1": 0.7975369458128079,
1578
+ "eval_loss": 0.40751826763153076,
1579
+ "eval_precision": 0.8172640080767289,
1580
+ "eval_recall": 0.7787397787397787,
1581
+ "eval_runtime": 4.0653,
1582
+ "eval_samples_per_second": 1071.029,
1583
+ "eval_steps_per_second": 0.738,
1584
+ "step": 189
1585
+ },
1586
+ {
1587
+ "epoch": 21.11111111111111,
1588
+ "grad_norm": 119997.5234375,
1589
+ "learning_rate": 2.181901699586587e-08,
1590
+ "loss": 0.3979,
1591
+ "step": 190
1592
+ },
1593
+ {
1594
+ "epoch": 21.22222222222222,
1595
+ "grad_norm": 55222.81640625,
1596
+ "learning_rate": 2.1933853927423063e-08,
1597
+ "loss": 0.4095,
1598
+ "step": 191
1599
+ },
1600
+ {
1601
+ "epoch": 21.333333333333332,
1602
+ "grad_norm": 120158.1484375,
1603
+ "learning_rate": 2.204869085898025e-08,
1604
+ "loss": 0.4031,
1605
+ "step": 192
1606
+ },
1607
+ {
1608
+ "epoch": 21.444444444444443,
1609
+ "grad_norm": 228876.90625,
1610
+ "learning_rate": 2.216352779053744e-08,
1611
+ "loss": 0.416,
1612
+ "step": 193
1613
+ },
1614
+ {
1615
+ "epoch": 21.555555555555557,
1616
+ "grad_norm": 139059.484375,
1617
+ "learning_rate": 2.2278364722094628e-08,
1618
+ "loss": 0.3891,
1619
+ "step": 194
1620
+ },
1621
+ {
1622
+ "epoch": 21.666666666666668,
1623
+ "grad_norm": 253780.5,
1624
+ "learning_rate": 2.2393201653651817e-08,
1625
+ "loss": 0.4171,
1626
+ "step": 195
1627
+ },
1628
+ {
1629
+ "epoch": 21.77777777777778,
1630
+ "grad_norm": 143734.296875,
1631
+ "learning_rate": 2.2508038585209003e-08,
1632
+ "loss": 0.4165,
1633
+ "step": 196
1634
+ },
1635
+ {
1636
+ "epoch": 21.88888888888889,
1637
+ "grad_norm": 114648.3046875,
1638
+ "learning_rate": 2.2622875516766195e-08,
1639
+ "loss": 0.3873,
1640
+ "step": 197
1641
+ },
1642
+ {
1643
+ "epoch": 22.0,
1644
+ "grad_norm": 176826.3125,
1645
+ "learning_rate": 2.273771244832338e-08,
1646
+ "loss": 0.3808,
1647
+ "step": 198
1648
+ },
1649
+ {
1650
+ "epoch": 22.0,
1651
+ "eval_accuracy": 0.8112080845199816,
1652
+ "eval_f1": 0.7978357107722578,
1653
+ "eval_loss": 0.40740326046943665,
1654
+ "eval_precision": 0.8163059889280322,
1655
+ "eval_recall": 0.7801827801827802,
1656
+ "eval_runtime": 4.4548,
1657
+ "eval_samples_per_second": 977.363,
1658
+ "eval_steps_per_second": 0.673,
1659
+ "step": 198
1660
+ },
1661
+ {
1662
+ "epoch": 22.11111111111111,
1663
+ "grad_norm": 195394.6875,
1664
+ "learning_rate": 2.2852549379880573e-08,
1665
+ "loss": 0.4074,
1666
+ "step": 199
1667
+ },
1668
+ {
1669
+ "epoch": 22.22222222222222,
1670
+ "grad_norm": 125695.6328125,
1671
+ "learning_rate": 2.296738631143776e-08,
1672
+ "loss": 0.4051,
1673
+ "step": 200
1674
+ },
1675
+ {
1676
+ "epoch": 22.333333333333332,
1677
+ "grad_norm": 167733.265625,
1678
+ "learning_rate": 2.308222324299495e-08,
1679
+ "loss": 0.4093,
1680
+ "step": 201
1681
+ },
1682
+ {
1683
+ "epoch": 22.444444444444443,
1684
+ "grad_norm": 100189.2890625,
1685
+ "learning_rate": 2.3197060174552138e-08,
1686
+ "loss": 0.4165,
1687
+ "step": 202
1688
+ },
1689
+ {
1690
+ "epoch": 22.555555555555557,
1691
+ "grad_norm": 173090.84375,
1692
+ "learning_rate": 2.3311897106109327e-08,
1693
+ "loss": 0.3996,
1694
+ "step": 203
1695
+ },
1696
+ {
1697
+ "epoch": 22.666666666666668,
1698
+ "grad_norm": 83075.390625,
1699
+ "learning_rate": 2.3426734037666513e-08,
1700
+ "loss": 0.3813,
1701
+ "step": 204
1702
+ },
1703
+ {
1704
+ "epoch": 22.77777777777778,
1705
+ "grad_norm": 200632.8125,
1706
+ "learning_rate": 2.3541570969223705e-08,
1707
+ "loss": 0.3937,
1708
+ "step": 205
1709
+ },
1710
+ {
1711
+ "epoch": 22.88888888888889,
1712
+ "grad_norm": 146405.703125,
1713
+ "learning_rate": 2.365640790078089e-08,
1714
+ "loss": 0.4075,
1715
+ "step": 206
1716
+ },
1717
+ {
1718
+ "epoch": 23.0,
1719
+ "grad_norm": 145782.46875,
1720
+ "learning_rate": 2.377124483233808e-08,
1721
+ "loss": 0.3625,
1722
+ "step": 207
1723
+ },
1724
+ {
1725
+ "epoch": 23.0,
1726
+ "eval_accuracy": 0.811437758383096,
1727
+ "eval_f1": 0.7983296487349546,
1728
+ "eval_loss": 0.407308429479599,
1729
+ "eval_precision": 0.8157630522088354,
1730
+ "eval_recall": 0.7816257816257817,
1731
+ "eval_runtime": 4.1931,
1732
+ "eval_samples_per_second": 1038.381,
1733
+ "eval_steps_per_second": 0.715,
1734
+ "step": 207
1735
+ },
1736
+ {
1737
+ "epoch": 23.11111111111111,
1738
+ "grad_norm": 80425.2578125,
1739
+ "learning_rate": 2.3886081763895273e-08,
1740
+ "loss": 0.3928,
1741
+ "step": 208
1742
+ },
1743
+ {
1744
+ "epoch": 23.22222222222222,
1745
+ "grad_norm": 138923.78125,
1746
+ "learning_rate": 2.400091869545246e-08,
1747
+ "loss": 0.401,
1748
+ "step": 209
1749
+ },
1750
+ {
1751
+ "epoch": 23.333333333333332,
1752
+ "grad_norm": 137138.015625,
1753
+ "learning_rate": 2.411575562700965e-08,
1754
+ "loss": 0.4047,
1755
+ "step": 210
1756
+ },
1757
+ {
1758
+ "epoch": 23.444444444444443,
1759
+ "grad_norm": 120477.125,
1760
+ "learning_rate": 2.4230592558566837e-08,
1761
+ "loss": 0.4139,
1762
+ "step": 211
1763
+ },
1764
+ {
1765
+ "epoch": 23.555555555555557,
1766
+ "grad_norm": 87321.953125,
1767
+ "learning_rate": 2.4345429490124026e-08,
1768
+ "loss": 0.4152,
1769
+ "step": 212
1770
+ },
1771
+ {
1772
+ "epoch": 23.666666666666668,
1773
+ "grad_norm": 201660.828125,
1774
+ "learning_rate": 2.4460266421681215e-08,
1775
+ "loss": 0.4057,
1776
+ "step": 213
1777
+ },
1778
+ {
1779
+ "epoch": 23.77777777777778,
1780
+ "grad_norm": 76530.015625,
1781
+ "learning_rate": 2.4575103353238405e-08,
1782
+ "loss": 0.402,
1783
+ "step": 214
1784
+ },
1785
+ {
1786
+ "epoch": 23.88888888888889,
1787
+ "grad_norm": 136255.46875,
1788
+ "learning_rate": 2.468994028479559e-08,
1789
+ "loss": 0.3999,
1790
+ "step": 215
1791
+ },
1792
+ {
1793
+ "epoch": 24.0,
1794
+ "grad_norm": 292040.84375,
1795
+ "learning_rate": 2.4804777216352783e-08,
1796
+ "loss": 0.3615,
1797
+ "step": 216
1798
+ },
1799
+ {
1800
+ "epoch": 24.0,
1801
+ "eval_accuracy": 0.8116674322462104,
1802
+ "eval_f1": 0.7987236131566029,
1803
+ "eval_loss": 0.4072152376174927,
1804
+ "eval_precision": 0.8155388471177945,
1805
+ "eval_recall": 0.7825877825877826,
1806
+ "eval_runtime": 4.25,
1807
+ "eval_samples_per_second": 1024.465,
1808
+ "eval_steps_per_second": 0.706,
1809
+ "step": 216
1810
+ },
1811
+ {
1812
+ "epoch": 24.11111111111111,
1813
+ "grad_norm": 99101.1328125,
1814
+ "learning_rate": 2.491961414790997e-08,
1815
+ "loss": 0.4274,
1816
+ "step": 217
1817
+ },
1818
+ {
1819
+ "epoch": 24.22222222222222,
1820
+ "grad_norm": 64315.54296875,
1821
+ "learning_rate": 2.503445107946716e-08,
1822
+ "loss": 0.3936,
1823
+ "step": 218
1824
+ },
1825
+ {
1826
+ "epoch": 24.333333333333332,
1827
+ "grad_norm": 133974.671875,
1828
+ "learning_rate": 2.5149288011024347e-08,
1829
+ "loss": 0.3976,
1830
+ "step": 219
1831
+ },
1832
+ {
1833
+ "epoch": 24.444444444444443,
1834
+ "grad_norm": 181377.90625,
1835
+ "learning_rate": 2.5264124942581536e-08,
1836
+ "loss": 0.4097,
1837
+ "step": 220
1838
+ },
1839
+ {
1840
+ "epoch": 24.555555555555557,
1841
+ "grad_norm": 117327.421875,
1842
+ "learning_rate": 2.5378961874138722e-08,
1843
+ "loss": 0.4014,
1844
+ "step": 221
1845
+ },
1846
+ {
1847
+ "epoch": 24.666666666666668,
1848
+ "grad_norm": 131969.5625,
1849
+ "learning_rate": 2.5493798805695915e-08,
1850
+ "loss": 0.4142,
1851
+ "step": 222
1852
+ },
1853
+ {
1854
+ "epoch": 24.77777777777778,
1855
+ "grad_norm": 73783.3046875,
1856
+ "learning_rate": 2.56086357372531e-08,
1857
+ "loss": 0.3713,
1858
+ "step": 223
1859
+ },
1860
+ {
1861
+ "epoch": 24.88888888888889,
1862
+ "grad_norm": 146125.0625,
1863
+ "learning_rate": 2.5723472668810293e-08,
1864
+ "loss": 0.3838,
1865
+ "step": 224
1866
+ },
1867
+ {
1868
+ "epoch": 25.0,
1869
+ "grad_norm": 397248.34375,
1870
+ "learning_rate": 2.583830960036748e-08,
1871
+ "loss": 0.4203,
1872
+ "step": 225
1873
+ },
1874
+ {
1875
+ "epoch": 25.0,
1876
+ "eval_accuracy": 0.8116674322462104,
1877
+ "eval_f1": 0.7989210397253556,
1878
+ "eval_loss": 0.4071270823478699,
1879
+ "eval_precision": 0.8149074537268635,
1880
+ "eval_recall": 0.7835497835497836,
1881
+ "eval_runtime": 4.2738,
1882
+ "eval_samples_per_second": 1018.776,
1883
+ "eval_steps_per_second": 0.702,
1884
+ "step": 225
1885
+ },
1886
+ {
1887
+ "epoch": 25.11111111111111,
1888
+ "grad_norm": 76815.546875,
1889
+ "learning_rate": 2.5953146531924668e-08,
1890
+ "loss": 0.4168,
1891
+ "step": 226
1892
+ },
1893
+ {
1894
+ "epoch": 25.22222222222222,
1895
+ "grad_norm": 115688.4140625,
1896
+ "learning_rate": 2.6067983463481857e-08,
1897
+ "loss": 0.3871,
1898
+ "step": 227
1899
+ },
1900
+ {
1901
+ "epoch": 25.333333333333332,
1902
+ "grad_norm": 173911.359375,
1903
+ "learning_rate": 2.6182820395039046e-08,
1904
+ "loss": 0.3962,
1905
+ "step": 228
1906
+ },
1907
+ {
1908
+ "epoch": 25.444444444444443,
1909
+ "grad_norm": 99825.3984375,
1910
+ "learning_rate": 2.6297657326596232e-08,
1911
+ "loss": 0.4211,
1912
+ "step": 229
1913
+ },
1914
+ {
1915
+ "epoch": 25.555555555555557,
1916
+ "grad_norm": 172674.21875,
1917
+ "learning_rate": 2.6412494258153425e-08,
1918
+ "loss": 0.4087,
1919
+ "step": 230
1920
+ },
1921
+ {
1922
+ "epoch": 25.666666666666668,
1923
+ "grad_norm": 150575.75,
1924
+ "learning_rate": 2.6527331189710614e-08,
1925
+ "loss": 0.4029,
1926
+ "step": 231
1927
+ },
1928
+ {
1929
+ "epoch": 25.77777777777778,
1930
+ "grad_norm": 112252.109375,
1931
+ "learning_rate": 2.6642168121267803e-08,
1932
+ "loss": 0.3987,
1933
+ "step": 232
1934
+ },
1935
+ {
1936
+ "epoch": 25.88888888888889,
1937
+ "grad_norm": 182919.984375,
1938
+ "learning_rate": 2.6757005052824992e-08,
1939
+ "loss": 0.3986,
1940
+ "step": 233
1941
+ },
1942
+ {
1943
+ "epoch": 26.0,
1944
+ "grad_norm": 342678.03125,
1945
+ "learning_rate": 2.6871841984382178e-08,
1946
+ "loss": 0.3989,
1947
+ "step": 234
1948
+ },
1949
+ {
1950
+ "epoch": 26.0,
1951
+ "eval_accuracy": 0.8121267799724391,
1952
+ "eval_f1": 0.7995098039215687,
1953
+ "eval_loss": 0.40705057978630066,
1954
+ "eval_precision": 0.8150924537731135,
1955
+ "eval_recall": 0.7845117845117845,
1956
+ "eval_runtime": 4.3118,
1957
+ "eval_samples_per_second": 1009.793,
1958
+ "eval_steps_per_second": 0.696,
1959
+ "step": 234
1960
+ },
1961
+ {
1962
+ "epoch": 26.11111111111111,
1963
+ "grad_norm": 234523.734375,
1964
+ "learning_rate": 2.698667891593937e-08,
1965
+ "loss": 0.3909,
1966
+ "step": 235
1967
+ },
1968
+ {
1969
+ "epoch": 26.22222222222222,
1970
+ "grad_norm": 134018.859375,
1971
+ "learning_rate": 2.7101515847496557e-08,
1972
+ "loss": 0.3957,
1973
+ "step": 236
1974
+ },
1975
+ {
1976
+ "epoch": 26.333333333333332,
1977
+ "grad_norm": 84843.9765625,
1978
+ "learning_rate": 2.721635277905375e-08,
1979
+ "loss": 0.385,
1980
+ "step": 237
1981
+ },
1982
+ {
1983
+ "epoch": 26.444444444444443,
1984
+ "grad_norm": 127592.4140625,
1985
+ "learning_rate": 2.7331189710610935e-08,
1986
+ "loss": 0.4155,
1987
+ "step": 238
1988
+ },
1989
+ {
1990
+ "epoch": 26.555555555555557,
1991
+ "grad_norm": 101331.8828125,
1992
+ "learning_rate": 2.7446026642168124e-08,
1993
+ "loss": 0.3954,
1994
+ "step": 239
1995
+ },
1996
+ {
1997
+ "epoch": 26.666666666666668,
1998
+ "grad_norm": 97625.59375,
1999
+ "learning_rate": 2.756086357372531e-08,
2000
+ "loss": 0.4154,
2001
+ "step": 240
2002
+ },
2003
+ {
2004
+ "epoch": 26.77777777777778,
2005
+ "grad_norm": 268018.65625,
2006
+ "learning_rate": 2.7675700505282502e-08,
2007
+ "loss": 0.4041,
2008
+ "step": 241
2009
+ },
2010
+ {
2011
+ "epoch": 26.88888888888889,
2012
+ "grad_norm": 121827.4140625,
2013
+ "learning_rate": 2.7790537436839688e-08,
2014
+ "loss": 0.3923,
2015
+ "step": 242
2016
+ },
2017
+ {
2018
+ "epoch": 27.0,
2019
+ "grad_norm": 137969.9375,
2020
+ "learning_rate": 2.790537436839688e-08,
2021
+ "loss": 0.395,
2022
+ "step": 243
2023
+ },
2024
+ {
2025
+ "epoch": 27.0,
2026
+ "eval_accuracy": 0.8123564538355535,
2027
+ "eval_f1": 0.7999020328190056,
2028
+ "eval_loss": 0.4069819748401642,
2029
+ "eval_precision": 0.814870259481038,
2030
+ "eval_recall": 0.7854737854737854,
2031
+ "eval_runtime": 4.3601,
2032
+ "eval_samples_per_second": 998.609,
2033
+ "eval_steps_per_second": 0.688,
2034
+ "step": 243
2035
+ },
2036
+ {
2037
+ "epoch": 27.11111111111111,
2038
+ "grad_norm": 94782.7109375,
2039
+ "learning_rate": 2.8020211299954067e-08,
2040
+ "loss": 0.3945,
2041
+ "step": 244
2042
+ },
2043
+ {
2044
+ "epoch": 27.22222222222222,
2045
+ "grad_norm": 110734.5703125,
2046
+ "learning_rate": 2.8135048231511256e-08,
2047
+ "loss": 0.3908,
2048
+ "step": 245
2049
+ },
2050
+ {
2051
+ "epoch": 27.333333333333332,
2052
+ "grad_norm": 98079.078125,
2053
+ "learning_rate": 2.8249885163068445e-08,
2054
+ "loss": 0.401,
2055
+ "step": 246
2056
+ },
2057
+ {
2058
+ "epoch": 27.444444444444443,
2059
+ "grad_norm": 62154.65625,
2060
+ "learning_rate": 2.8364722094625634e-08,
2061
+ "loss": 0.4173,
2062
+ "step": 247
2063
+ },
2064
+ {
2065
+ "epoch": 27.555555555555557,
2066
+ "grad_norm": 100930.515625,
2067
+ "learning_rate": 2.847955902618282e-08,
2068
+ "loss": 0.3957,
2069
+ "step": 248
2070
+ },
2071
+ {
2072
+ "epoch": 27.666666666666668,
2073
+ "grad_norm": 129585.421875,
2074
+ "learning_rate": 2.8594395957740013e-08,
2075
+ "loss": 0.4201,
2076
+ "step": 249
2077
+ },
2078
+ {
2079
+ "epoch": 27.77777777777778,
2080
+ "grad_norm": 106040.046875,
2081
+ "learning_rate": 2.87092328892972e-08,
2082
+ "loss": 0.399,
2083
+ "step": 250
2084
+ },
2085
+ {
2086
+ "epoch": 27.88888888888889,
2087
+ "grad_norm": 101252.2265625,
2088
+ "learning_rate": 2.882406982085439e-08,
2089
+ "loss": 0.4012,
2090
+ "step": 251
2091
+ },
2092
+ {
2093
+ "epoch": 28.0,
2094
+ "grad_norm": 204035.765625,
2095
+ "learning_rate": 2.8938906752411577e-08,
2096
+ "loss": 0.3682,
2097
+ "step": 252
2098
+ },
2099
+ {
2100
+ "epoch": 28.0,
2101
+ "eval_accuracy": 0.8123564538355535,
2102
+ "eval_f1": 0.8,
2103
+ "eval_loss": 0.40691375732421875,
2104
+ "eval_precision": 0.8145563310069791,
2105
+ "eval_recall": 0.785954785954786,
2106
+ "eval_runtime": 4.3908,
2107
+ "eval_samples_per_second": 991.612,
2108
+ "eval_steps_per_second": 0.683,
2109
+ "step": 252
2110
+ }
2111
+ ],
2112
+ "logging_steps": 1,
2113
+ "max_steps": 450,
2114
+ "num_input_tokens_seen": 0,
2115
+ "num_train_epochs": 50,
2116
+ "save_steps": 500,
2117
+ "stateful_callbacks": {
2118
+ "TrainerControl": {
2119
+ "args": {
2120
+ "should_epoch_stop": false,
2121
+ "should_evaluate": false,
2122
+ "should_log": false,
2123
+ "should_save": true,
2124
+ "should_training_stop": false
2125
+ },
2126
+ "attributes": {}
2127
+ }
2128
+ },
2129
+ "total_flos": 1.922497283240755e+16,
2130
+ "train_batch_size": 2048,
2131
+ "trial_name": null,
2132
+ "trial_params": null
2133
+ }
checkpoint-252/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:74dac413ac07c27dc9943e74eae0633252d6bd133e88b42bc5e86ef037ddc678
3
+ size 5368
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:aebf6830fe10538fdd5841cfa8bc3a7de059c6edd64c4cbbbbe6f2bd94c9fc23
3
  size 8563512
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1cd3c11b6cd894c113178f0338d6a9fe1b56741a6767848ff5601040a1eb3837
3
  size 8563512
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:db7a6e522bc59163d2b15697b64887320385f6e05bcc931836ff29f5693f7d4f
3
  size 5368
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:74dac413ac07c27dc9943e74eae0633252d6bd133e88b42bc5e86ef037ddc678
3
  size 5368