ZivKassnerNK commited on
Commit
1a4b272
·
1 Parent(s): 50d4467

Add evaluation results and output files to model card

Browse files
README.md CHANGED
@@ -7,7 +7,7 @@ tags:
7
  metrics:
8
  - average_precision: 0.67
9
  - roc_auc: 0.77
10
- - best threshold according to F1: 0.40
11
  ---
12
 
13
  # Binary Classification Model
@@ -16,7 +16,7 @@ metrics:
16
 
17
  **Average Precision:** 0.67
18
  **ROC AUC:** 0.77
19
- **best threshold according to F1: 0.40
20
 
21
 
22
  ## Visualizations
 
7
  metrics:
8
  - average_precision: 0.67
9
  - roc_auc: 0.77
10
+ - best threshold according to F1: 0.41
11
  ---
12
 
13
  # Binary Classification Model
 
16
 
17
  **Average Precision:** 0.67
18
  **ROC AUC:** 0.77
19
+ **best threshold according to F1: 0.41
20
 
21
 
22
  ## Visualizations
checkpoint-414/config.json ADDED
@@ -0,0 +1,23 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "GenetikaPlus/binary_classification_model_v3.1.3_spines",
3
+ "architectures": [
4
+ "ViTForImageClassification"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.0,
7
+ "encoder_stride": 16,
8
+ "hidden_act": "gelu",
9
+ "hidden_dropout_prob": 0.0,
10
+ "hidden_size": 256,
11
+ "image_size": 32,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 512,
14
+ "layer_norm_eps": 1e-12,
15
+ "model_type": "vit",
16
+ "num_attention_heads": 8,
17
+ "num_channels": 3,
18
+ "num_hidden_layers": 4,
19
+ "patch_size": 4,
20
+ "qkv_bias": true,
21
+ "torch_dtype": "float32",
22
+ "transformers_version": "4.46.2"
23
+ }
checkpoint-414/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:05f698e2857ed21d2c2f654ad309d7006d406e0eecb9d46ad4a845601eda4380
3
+ size 8563512
checkpoint-414/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dcdb2576df644a99eadb2cafa6d6d81474387b6d245ae99e48d49c58c61161e0
3
+ size 17171514
checkpoint-414/preprocessor_config.json ADDED
@@ -0,0 +1,22 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "do_normalize": true,
3
+ "do_rescale": true,
4
+ "do_resize": false,
5
+ "image_mean": [
6
+ 0.5,
7
+ 0.5,
8
+ 0.5
9
+ ],
10
+ "image_processor_type": "ViTFeatureExtractor",
11
+ "image_std": [
12
+ 0.5,
13
+ 0.5,
14
+ 0.5
15
+ ],
16
+ "resample": 2,
17
+ "rescale_factor": 0.00392156862745098,
18
+ "size": {
19
+ "height": 32,
20
+ "width": 32
21
+ }
22
+ }
checkpoint-414/rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:23a5966e7d9aa27bf3c91ddfd2175d1f30b8f5544df504956c7ae90710a33d59
3
+ size 14244
checkpoint-414/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ec2080e6c334a01834ceb7157d787a65623160fa045734644b6009c0ce8da085
3
+ size 1000
checkpoint-414/trainer_state.json ADDED
@@ -0,0 +1,3483 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.8273947246645071,
3
+ "best_model_checkpoint": "/tmp/logs/binary_classification_model_v3.1.5_spines/checkpoint-414",
4
+ "epoch": 46.0,
5
+ "eval_steps": 500,
6
+ "global_step": 414,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.1111111111111111,
13
+ "grad_norm": 462486.0,
14
+ "learning_rate": 1.148369315571888e-08,
15
+ "loss": 0.3999,
16
+ "step": 1
17
+ },
18
+ {
19
+ "epoch": 0.2222222222222222,
20
+ "grad_norm": 498353.25,
21
+ "learning_rate": 2.296738631143776e-08,
22
+ "loss": 0.4304,
23
+ "step": 2
24
+ },
25
+ {
26
+ "epoch": 0.3333333333333333,
27
+ "grad_norm": 369319.8125,
28
+ "learning_rate": 3.4451079467156634e-08,
29
+ "loss": 0.4205,
30
+ "step": 3
31
+ },
32
+ {
33
+ "epoch": 0.4444444444444444,
34
+ "grad_norm": 433521.6875,
35
+ "learning_rate": 4.593477262287552e-08,
36
+ "loss": 0.3986,
37
+ "step": 4
38
+ },
39
+ {
40
+ "epoch": 0.5555555555555556,
41
+ "grad_norm": 341315.84375,
42
+ "learning_rate": 5.74184657785944e-08,
43
+ "loss": 0.4026,
44
+ "step": 5
45
+ },
46
+ {
47
+ "epoch": 0.6666666666666666,
48
+ "grad_norm": 292268.09375,
49
+ "learning_rate": 6.890215893431327e-08,
50
+ "loss": 0.3945,
51
+ "step": 6
52
+ },
53
+ {
54
+ "epoch": 0.7777777777777778,
55
+ "grad_norm": 265327.46875,
56
+ "learning_rate": 8.038585209003216e-08,
57
+ "loss": 0.3947,
58
+ "step": 7
59
+ },
60
+ {
61
+ "epoch": 0.8888888888888888,
62
+ "grad_norm": 311655.9375,
63
+ "learning_rate": 9.186954524575104e-08,
64
+ "loss": 0.408,
65
+ "step": 8
66
+ },
67
+ {
68
+ "epoch": 1.0,
69
+ "grad_norm": 534967.1875,
70
+ "learning_rate": 1.0335323840146992e-07,
71
+ "loss": 0.4136,
72
+ "step": 9
73
+ },
74
+ {
75
+ "epoch": 1.0,
76
+ "eval_accuracy": 0.809600367478181,
77
+ "eval_f1": 0.7938323800049739,
78
+ "eval_loss": 0.41161027550697327,
79
+ "eval_precision": 0.8218331616889805,
80
+ "eval_recall": 0.7676767676767676,
81
+ "eval_runtime": 3.7209,
82
+ "eval_samples_per_second": 1170.135,
83
+ "eval_steps_per_second": 0.806,
84
+ "step": 9
85
+ },
86
+ {
87
+ "epoch": 1.1111111111111112,
88
+ "grad_norm": 436558.1875,
89
+ "learning_rate": 1.148369315571888e-07,
90
+ "loss": 0.4109,
91
+ "step": 10
92
+ },
93
+ {
94
+ "epoch": 1.2222222222222223,
95
+ "grad_norm": 183180.109375,
96
+ "learning_rate": 1.2632062471290768e-07,
97
+ "loss": 0.3964,
98
+ "step": 11
99
+ },
100
+ {
101
+ "epoch": 1.3333333333333333,
102
+ "grad_norm": 353782.28125,
103
+ "learning_rate": 1.3780431786862654e-07,
104
+ "loss": 0.4047,
105
+ "step": 12
106
+ },
107
+ {
108
+ "epoch": 1.4444444444444444,
109
+ "grad_norm": 326118.3125,
110
+ "learning_rate": 1.4928801102434544e-07,
111
+ "loss": 0.3885,
112
+ "step": 13
113
+ },
114
+ {
115
+ "epoch": 1.5555555555555556,
116
+ "grad_norm": 196583.015625,
117
+ "learning_rate": 1.6077170418006432e-07,
118
+ "loss": 0.3977,
119
+ "step": 14
120
+ },
121
+ {
122
+ "epoch": 1.6666666666666665,
123
+ "grad_norm": 88230.421875,
124
+ "learning_rate": 1.722553973357832e-07,
125
+ "loss": 0.3985,
126
+ "step": 15
127
+ },
128
+ {
129
+ "epoch": 1.7777777777777777,
130
+ "grad_norm": 102945.453125,
131
+ "learning_rate": 1.8373909049150207e-07,
132
+ "loss": 0.4188,
133
+ "step": 16
134
+ },
135
+ {
136
+ "epoch": 1.8888888888888888,
137
+ "grad_norm": 132400.3125,
138
+ "learning_rate": 1.9522278364722095e-07,
139
+ "loss": 0.3939,
140
+ "step": 17
141
+ },
142
+ {
143
+ "epoch": 2.0,
144
+ "grad_norm": 187392.875,
145
+ "learning_rate": 2.0670647680293983e-07,
146
+ "loss": 0.4189,
147
+ "step": 18
148
+ },
149
+ {
150
+ "epoch": 2.0,
151
+ "eval_accuracy": 0.8086816720257235,
152
+ "eval_f1": 0.7966804979253111,
153
+ "eval_loss": 0.41029924154281616,
154
+ "eval_precision": 0.8087215064420218,
155
+ "eval_recall": 0.784992784992785,
156
+ "eval_runtime": 3.8262,
157
+ "eval_samples_per_second": 1137.932,
158
+ "eval_steps_per_second": 0.784,
159
+ "step": 18
160
+ },
161
+ {
162
+ "epoch": 2.111111111111111,
163
+ "grad_norm": 165157.5,
164
+ "learning_rate": 2.181901699586587e-07,
165
+ "loss": 0.3957,
166
+ "step": 19
167
+ },
168
+ {
169
+ "epoch": 2.2222222222222223,
170
+ "grad_norm": 209579.34375,
171
+ "learning_rate": 2.296738631143776e-07,
172
+ "loss": 0.4188,
173
+ "step": 20
174
+ },
175
+ {
176
+ "epoch": 2.3333333333333335,
177
+ "grad_norm": 147438.40625,
178
+ "learning_rate": 2.4115755627009647e-07,
179
+ "loss": 0.4076,
180
+ "step": 21
181
+ },
182
+ {
183
+ "epoch": 2.4444444444444446,
184
+ "grad_norm": 164255.859375,
185
+ "learning_rate": 2.5264124942581537e-07,
186
+ "loss": 0.399,
187
+ "step": 22
188
+ },
189
+ {
190
+ "epoch": 2.5555555555555554,
191
+ "grad_norm": 68289.0234375,
192
+ "learning_rate": 2.641249425815342e-07,
193
+ "loss": 0.4097,
194
+ "step": 23
195
+ },
196
+ {
197
+ "epoch": 2.6666666666666665,
198
+ "grad_norm": 116692.9453125,
199
+ "learning_rate": 2.7560863573725307e-07,
200
+ "loss": 0.3804,
201
+ "step": 24
202
+ },
203
+ {
204
+ "epoch": 2.7777777777777777,
205
+ "grad_norm": 144575.59375,
206
+ "learning_rate": 2.87092328892972e-07,
207
+ "loss": 0.3957,
208
+ "step": 25
209
+ },
210
+ {
211
+ "epoch": 2.888888888888889,
212
+ "grad_norm": 69518.9375,
213
+ "learning_rate": 2.985760220486909e-07,
214
+ "loss": 0.3953,
215
+ "step": 26
216
+ },
217
+ {
218
+ "epoch": 3.0,
219
+ "grad_norm": 198278.28125,
220
+ "learning_rate": 3.100597152044098e-07,
221
+ "loss": 0.3883,
222
+ "step": 27
223
+ },
224
+ {
225
+ "epoch": 3.0,
226
+ "eval_accuracy": 0.8118971061093248,
227
+ "eval_f1": 0.8021261174196666,
228
+ "eval_loss": 0.4097851514816284,
229
+ "eval_precision": 0.8058252427184466,
230
+ "eval_recall": 0.7984607984607984,
231
+ "eval_runtime": 3.8584,
232
+ "eval_samples_per_second": 1128.45,
233
+ "eval_steps_per_second": 0.778,
234
+ "step": 27
235
+ },
236
+ {
237
+ "epoch": 3.111111111111111,
238
+ "grad_norm": 104717.0,
239
+ "learning_rate": 3.2154340836012864e-07,
240
+ "loss": 0.3916,
241
+ "step": 28
242
+ },
243
+ {
244
+ "epoch": 3.2222222222222223,
245
+ "grad_norm": 70841.9375,
246
+ "learning_rate": 3.330271015158475e-07,
247
+ "loss": 0.3811,
248
+ "step": 29
249
+ },
250
+ {
251
+ "epoch": 3.3333333333333335,
252
+ "grad_norm": 225365.171875,
253
+ "learning_rate": 3.445107946715664e-07,
254
+ "loss": 0.4059,
255
+ "step": 30
256
+ },
257
+ {
258
+ "epoch": 3.4444444444444446,
259
+ "grad_norm": 62955.94140625,
260
+ "learning_rate": 3.5599448782728525e-07,
261
+ "loss": 0.3893,
262
+ "step": 31
263
+ },
264
+ {
265
+ "epoch": 3.5555555555555554,
266
+ "grad_norm": 193636.390625,
267
+ "learning_rate": 3.6747818098300415e-07,
268
+ "loss": 0.4119,
269
+ "step": 32
270
+ },
271
+ {
272
+ "epoch": 3.6666666666666665,
273
+ "grad_norm": 166762.671875,
274
+ "learning_rate": 3.7896187413872305e-07,
275
+ "loss": 0.4034,
276
+ "step": 33
277
+ },
278
+ {
279
+ "epoch": 3.7777777777777777,
280
+ "grad_norm": 201156.375,
281
+ "learning_rate": 3.904455672944419e-07,
282
+ "loss": 0.4015,
283
+ "step": 34
284
+ },
285
+ {
286
+ "epoch": 3.888888888888889,
287
+ "grad_norm": 104657.8671875,
288
+ "learning_rate": 4.0192926045016076e-07,
289
+ "loss": 0.4104,
290
+ "step": 35
291
+ },
292
+ {
293
+ "epoch": 4.0,
294
+ "grad_norm": 176918.875,
295
+ "learning_rate": 4.1341295360587966e-07,
296
+ "loss": 0.3992,
297
+ "step": 36
298
+ },
299
+ {
300
+ "epoch": 4.0,
301
+ "eval_accuracy": 0.811437758383096,
302
+ "eval_f1": 0.8013549479796758,
303
+ "eval_loss": 0.4091891646385193,
304
+ "eval_precision": 0.8062317429406037,
305
+ "eval_recall": 0.7965367965367965,
306
+ "eval_runtime": 3.9227,
307
+ "eval_samples_per_second": 1109.959,
308
+ "eval_steps_per_second": 0.765,
309
+ "step": 36
310
+ },
311
+ {
312
+ "epoch": 4.111111111111111,
313
+ "grad_norm": 102350.40625,
314
+ "learning_rate": 4.248966467615985e-07,
315
+ "loss": 0.4091,
316
+ "step": 37
317
+ },
318
+ {
319
+ "epoch": 4.222222222222222,
320
+ "grad_norm": 149349.15625,
321
+ "learning_rate": 4.363803399173174e-07,
322
+ "loss": 0.4158,
323
+ "step": 38
324
+ },
325
+ {
326
+ "epoch": 4.333333333333333,
327
+ "grad_norm": 58734.1015625,
328
+ "learning_rate": 4.478640330730363e-07,
329
+ "loss": 0.3904,
330
+ "step": 39
331
+ },
332
+ {
333
+ "epoch": 4.444444444444445,
334
+ "grad_norm": 51783.84765625,
335
+ "learning_rate": 4.593477262287552e-07,
336
+ "loss": 0.3906,
337
+ "step": 40
338
+ },
339
+ {
340
+ "epoch": 4.555555555555555,
341
+ "grad_norm": 144734.21875,
342
+ "learning_rate": 4.70831419384474e-07,
343
+ "loss": 0.4004,
344
+ "step": 41
345
+ },
346
+ {
347
+ "epoch": 4.666666666666667,
348
+ "grad_norm": 81174.1640625,
349
+ "learning_rate": 4.823151125401929e-07,
350
+ "loss": 0.4091,
351
+ "step": 42
352
+ },
353
+ {
354
+ "epoch": 4.777777777777778,
355
+ "grad_norm": 214313.296875,
356
+ "learning_rate": 4.937988056959118e-07,
357
+ "loss": 0.4024,
358
+ "step": 43
359
+ },
360
+ {
361
+ "epoch": 4.888888888888889,
362
+ "grad_norm": 94263.2265625,
363
+ "learning_rate": 5.052824988516307e-07,
364
+ "loss": 0.3783,
365
+ "step": 44
366
+ },
367
+ {
368
+ "epoch": 5.0,
369
+ "grad_norm": 224359.484375,
370
+ "learning_rate": 5.167661920073495e-07,
371
+ "loss": 0.4167,
372
+ "step": 45
373
+ },
374
+ {
375
+ "epoch": 5.0,
376
+ "eval_accuracy": 0.8128158015617822,
377
+ "eval_f1": 0.8015583150718286,
378
+ "eval_loss": 0.40888261795043945,
379
+ "eval_precision": 0.8116370808678501,
380
+ "eval_recall": 0.7917267917267917,
381
+ "eval_runtime": 3.9592,
382
+ "eval_samples_per_second": 1099.713,
383
+ "eval_steps_per_second": 0.758,
384
+ "step": 45
385
+ },
386
+ {
387
+ "epoch": 5.111111111111111,
388
+ "grad_norm": 67686.3359375,
389
+ "learning_rate": 5.282498851630684e-07,
390
+ "loss": 0.4068,
391
+ "step": 46
392
+ },
393
+ {
394
+ "epoch": 5.222222222222222,
395
+ "grad_norm": 95565.5234375,
396
+ "learning_rate": 5.397335783187873e-07,
397
+ "loss": 0.3813,
398
+ "step": 47
399
+ },
400
+ {
401
+ "epoch": 5.333333333333333,
402
+ "grad_norm": 64774.375,
403
+ "learning_rate": 5.512172714745061e-07,
404
+ "loss": 0.3878,
405
+ "step": 48
406
+ },
407
+ {
408
+ "epoch": 5.444444444444445,
409
+ "grad_norm": 202234.890625,
410
+ "learning_rate": 5.62700964630225e-07,
411
+ "loss": 0.4293,
412
+ "step": 49
413
+ },
414
+ {
415
+ "epoch": 5.555555555555555,
416
+ "grad_norm": 201268.0625,
417
+ "learning_rate": 5.74184657785944e-07,
418
+ "loss": 0.3929,
419
+ "step": 50
420
+ },
421
+ {
422
+ "epoch": 5.666666666666667,
423
+ "grad_norm": 75988.9375,
424
+ "learning_rate": 5.856683509416628e-07,
425
+ "loss": 0.4009,
426
+ "step": 51
427
+ },
428
+ {
429
+ "epoch": 5.777777777777778,
430
+ "grad_norm": 96718.375,
431
+ "learning_rate": 5.971520440973818e-07,
432
+ "loss": 0.3964,
433
+ "step": 52
434
+ },
435
+ {
436
+ "epoch": 5.888888888888889,
437
+ "grad_norm": 159498.375,
438
+ "learning_rate": 6.086357372531007e-07,
439
+ "loss": 0.3998,
440
+ "step": 53
441
+ },
442
+ {
443
+ "epoch": 6.0,
444
+ "grad_norm": 182416.921875,
445
+ "learning_rate": 6.201194304088196e-07,
446
+ "loss": 0.4103,
447
+ "step": 54
448
+ },
449
+ {
450
+ "epoch": 6.0,
451
+ "eval_accuracy": 0.8109784106568673,
452
+ "eval_f1": 0.8012557353296306,
453
+ "eval_loss": 0.4089536666870117,
454
+ "eval_precision": 0.8045586808923375,
455
+ "eval_recall": 0.797979797979798,
456
+ "eval_runtime": 3.9918,
457
+ "eval_samples_per_second": 1090.745,
458
+ "eval_steps_per_second": 0.752,
459
+ "step": 54
460
+ },
461
+ {
462
+ "epoch": 6.111111111111111,
463
+ "grad_norm": 61874.33984375,
464
+ "learning_rate": 6.316031235645384e-07,
465
+ "loss": 0.3988,
466
+ "step": 55
467
+ },
468
+ {
469
+ "epoch": 6.222222222222222,
470
+ "grad_norm": 124532.828125,
471
+ "learning_rate": 6.430868167202573e-07,
472
+ "loss": 0.3987,
473
+ "step": 56
474
+ },
475
+ {
476
+ "epoch": 6.333333333333333,
477
+ "grad_norm": 236617.484375,
478
+ "learning_rate": 6.545705098759762e-07,
479
+ "loss": 0.4024,
480
+ "step": 57
481
+ },
482
+ {
483
+ "epoch": 6.444444444444445,
484
+ "grad_norm": 66161.015625,
485
+ "learning_rate": 6.66054203031695e-07,
486
+ "loss": 0.3784,
487
+ "step": 58
488
+ },
489
+ {
490
+ "epoch": 6.555555555555555,
491
+ "grad_norm": 266440.5,
492
+ "learning_rate": 6.775378961874139e-07,
493
+ "loss": 0.4216,
494
+ "step": 59
495
+ },
496
+ {
497
+ "epoch": 6.666666666666667,
498
+ "grad_norm": 248766.765625,
499
+ "learning_rate": 6.890215893431328e-07,
500
+ "loss": 0.3842,
501
+ "step": 60
502
+ },
503
+ {
504
+ "epoch": 6.777777777777778,
505
+ "grad_norm": 87982.4609375,
506
+ "learning_rate": 7.005052824988516e-07,
507
+ "loss": 0.4236,
508
+ "step": 61
509
+ },
510
+ {
511
+ "epoch": 6.888888888888889,
512
+ "grad_norm": 87643.5390625,
513
+ "learning_rate": 7.119889756545705e-07,
514
+ "loss": 0.4015,
515
+ "step": 62
516
+ },
517
+ {
518
+ "epoch": 7.0,
519
+ "grad_norm": 199694.375,
520
+ "learning_rate": 7.234726688102894e-07,
521
+ "loss": 0.4042,
522
+ "step": 63
523
+ },
524
+ {
525
+ "epoch": 7.0,
526
+ "eval_accuracy": 0.811437758383096,
527
+ "eval_f1": 0.8005829487490892,
528
+ "eval_loss": 0.4083126485347748,
529
+ "eval_precision": 0.8086359175662414,
530
+ "eval_recall": 0.7926887926887927,
531
+ "eval_runtime": 4.0191,
532
+ "eval_samples_per_second": 1083.34,
533
+ "eval_steps_per_second": 0.746,
534
+ "step": 63
535
+ },
536
+ {
537
+ "epoch": 7.111111111111111,
538
+ "grad_norm": 141664.1875,
539
+ "learning_rate": 7.349563619660083e-07,
540
+ "loss": 0.397,
541
+ "step": 64
542
+ },
543
+ {
544
+ "epoch": 7.222222222222222,
545
+ "grad_norm": 224376.9375,
546
+ "learning_rate": 7.464400551217272e-07,
547
+ "loss": 0.3918,
548
+ "step": 65
549
+ },
550
+ {
551
+ "epoch": 7.333333333333333,
552
+ "grad_norm": 53294.6640625,
553
+ "learning_rate": 7.579237482774461e-07,
554
+ "loss": 0.4015,
555
+ "step": 66
556
+ },
557
+ {
558
+ "epoch": 7.444444444444445,
559
+ "grad_norm": 104196.5859375,
560
+ "learning_rate": 7.694074414331649e-07,
561
+ "loss": 0.4077,
562
+ "step": 67
563
+ },
564
+ {
565
+ "epoch": 7.555555555555555,
566
+ "grad_norm": 242109.171875,
567
+ "learning_rate": 7.808911345888838e-07,
568
+ "loss": 0.4047,
569
+ "step": 68
570
+ },
571
+ {
572
+ "epoch": 7.666666666666667,
573
+ "grad_norm": 88400.484375,
574
+ "learning_rate": 7.923748277446027e-07,
575
+ "loss": 0.4036,
576
+ "step": 69
577
+ },
578
+ {
579
+ "epoch": 7.777777777777778,
580
+ "grad_norm": 98138.4140625,
581
+ "learning_rate": 8.038585209003215e-07,
582
+ "loss": 0.4145,
583
+ "step": 70
584
+ },
585
+ {
586
+ "epoch": 7.888888888888889,
587
+ "grad_norm": 126328.7421875,
588
+ "learning_rate": 8.153422140560404e-07,
589
+ "loss": 0.3981,
590
+ "step": 71
591
+ },
592
+ {
593
+ "epoch": 8.0,
594
+ "grad_norm": 134507.5,
595
+ "learning_rate": 8.268259072117593e-07,
596
+ "loss": 0.3705,
597
+ "step": 72
598
+ },
599
+ {
600
+ "epoch": 8.0,
601
+ "eval_accuracy": 0.8112080845199816,
602
+ "eval_f1": 0.7997076023391813,
603
+ "eval_loss": 0.40784016251564026,
604
+ "eval_precision": 0.8103703703703704,
605
+ "eval_recall": 0.7893217893217893,
606
+ "eval_runtime": 4.0716,
607
+ "eval_samples_per_second": 1069.369,
608
+ "eval_steps_per_second": 0.737,
609
+ "step": 72
610
+ },
611
+ {
612
+ "epoch": 8.11111111111111,
613
+ "grad_norm": 74213.140625,
614
+ "learning_rate": 8.383096003674781e-07,
615
+ "loss": 0.3839,
616
+ "step": 73
617
+ },
618
+ {
619
+ "epoch": 8.222222222222221,
620
+ "grad_norm": 123429.9375,
621
+ "learning_rate": 8.49793293523197e-07,
622
+ "loss": 0.4077,
623
+ "step": 74
624
+ },
625
+ {
626
+ "epoch": 8.333333333333334,
627
+ "grad_norm": 103865.6015625,
628
+ "learning_rate": 8.61276986678916e-07,
629
+ "loss": 0.4074,
630
+ "step": 75
631
+ },
632
+ {
633
+ "epoch": 8.444444444444445,
634
+ "grad_norm": 185123.984375,
635
+ "learning_rate": 8.727606798346348e-07,
636
+ "loss": 0.4,
637
+ "step": 76
638
+ },
639
+ {
640
+ "epoch": 8.555555555555555,
641
+ "grad_norm": 130541.5,
642
+ "learning_rate": 8.842443729903537e-07,
643
+ "loss": 0.4067,
644
+ "step": 77
645
+ },
646
+ {
647
+ "epoch": 8.666666666666666,
648
+ "grad_norm": 167941.90625,
649
+ "learning_rate": 8.957280661460726e-07,
650
+ "loss": 0.4234,
651
+ "step": 78
652
+ },
653
+ {
654
+ "epoch": 8.777777777777779,
655
+ "grad_norm": 214580.09375,
656
+ "learning_rate": 9.072117593017914e-07,
657
+ "loss": 0.382,
658
+ "step": 79
659
+ },
660
+ {
661
+ "epoch": 8.88888888888889,
662
+ "grad_norm": 253802.171875,
663
+ "learning_rate": 9.186954524575103e-07,
664
+ "loss": 0.3714,
665
+ "step": 80
666
+ },
667
+ {
668
+ "epoch": 9.0,
669
+ "grad_norm": 246684.4375,
670
+ "learning_rate": 9.301791456132293e-07,
671
+ "loss": 0.395,
672
+ "step": 81
673
+ },
674
+ {
675
+ "epoch": 9.0,
676
+ "eval_accuracy": 0.811437758383096,
677
+ "eval_f1": 0.8004860267314702,
678
+ "eval_loss": 0.40752363204956055,
679
+ "eval_precision": 0.8089390962671905,
680
+ "eval_recall": 0.7922077922077922,
681
+ "eval_runtime": 4.1246,
682
+ "eval_samples_per_second": 1055.617,
683
+ "eval_steps_per_second": 0.727,
684
+ "step": 81
685
+ },
686
+ {
687
+ "epoch": 9.11111111111111,
688
+ "grad_norm": 134944.796875,
689
+ "learning_rate": 9.41662838768948e-07,
690
+ "loss": 0.3812,
691
+ "step": 82
692
+ },
693
+ {
694
+ "epoch": 9.222222222222221,
695
+ "grad_norm": 76687.96875,
696
+ "learning_rate": 9.53146531924667e-07,
697
+ "loss": 0.3871,
698
+ "step": 83
699
+ },
700
+ {
701
+ "epoch": 9.333333333333334,
702
+ "grad_norm": 134176.203125,
703
+ "learning_rate": 9.646302250803859e-07,
704
+ "loss": 0.408,
705
+ "step": 84
706
+ },
707
+ {
708
+ "epoch": 9.444444444444445,
709
+ "grad_norm": 89754.578125,
710
+ "learning_rate": 9.761139182361047e-07,
711
+ "loss": 0.3973,
712
+ "step": 85
713
+ },
714
+ {
715
+ "epoch": 9.555555555555555,
716
+ "grad_norm": 195871.5,
717
+ "learning_rate": 9.875976113918237e-07,
718
+ "loss": 0.3998,
719
+ "step": 86
720
+ },
721
+ {
722
+ "epoch": 9.666666666666666,
723
+ "grad_norm": 199506.5625,
724
+ "learning_rate": 9.990813045475425e-07,
725
+ "loss": 0.4201,
726
+ "step": 87
727
+ },
728
+ {
729
+ "epoch": 9.777777777777779,
730
+ "grad_norm": 71133.1171875,
731
+ "learning_rate": 1.0105649977032615e-06,
732
+ "loss": 0.4047,
733
+ "step": 88
734
+ },
735
+ {
736
+ "epoch": 9.88888888888889,
737
+ "grad_norm": 109423.734375,
738
+ "learning_rate": 1.0220486908589803e-06,
739
+ "loss": 0.3942,
740
+ "step": 89
741
+ },
742
+ {
743
+ "epoch": 10.0,
744
+ "grad_norm": 326489.625,
745
+ "learning_rate": 1.033532384014699e-06,
746
+ "loss": 0.3836,
747
+ "step": 90
748
+ },
749
+ {
750
+ "epoch": 10.0,
751
+ "eval_accuracy": 0.8109784106568673,
752
+ "eval_f1": 0.8011597004107273,
753
+ "eval_loss": 0.4074622392654419,
754
+ "eval_precision": 0.8048543689320389,
755
+ "eval_recall": 0.7974987974987975,
756
+ "eval_runtime": 4.1511,
757
+ "eval_samples_per_second": 1048.879,
758
+ "eval_steps_per_second": 0.723,
759
+ "step": 90
760
+ },
761
+ {
762
+ "epoch": 10.11111111111111,
763
+ "grad_norm": 141166.140625,
764
+ "learning_rate": 1.045016077170418e-06,
765
+ "loss": 0.408,
766
+ "step": 91
767
+ },
768
+ {
769
+ "epoch": 10.222222222222221,
770
+ "grad_norm": 69169.859375,
771
+ "learning_rate": 1.0564997703261369e-06,
772
+ "loss": 0.3887,
773
+ "step": 92
774
+ },
775
+ {
776
+ "epoch": 10.333333333333334,
777
+ "grad_norm": 56820.30859375,
778
+ "learning_rate": 1.0679834634818557e-06,
779
+ "loss": 0.4045,
780
+ "step": 93
781
+ },
782
+ {
783
+ "epoch": 10.444444444444445,
784
+ "grad_norm": 82678.1875,
785
+ "learning_rate": 1.0794671566375747e-06,
786
+ "loss": 0.3867,
787
+ "step": 94
788
+ },
789
+ {
790
+ "epoch": 10.555555555555555,
791
+ "grad_norm": 66057.0703125,
792
+ "learning_rate": 1.0909508497932935e-06,
793
+ "loss": 0.3956,
794
+ "step": 95
795
+ },
796
+ {
797
+ "epoch": 10.666666666666666,
798
+ "grad_norm": 208573.453125,
799
+ "learning_rate": 1.1024345429490123e-06,
800
+ "loss": 0.4234,
801
+ "step": 96
802
+ },
803
+ {
804
+ "epoch": 10.777777777777779,
805
+ "grad_norm": 89480.4375,
806
+ "learning_rate": 1.1139182361047313e-06,
807
+ "loss": 0.3979,
808
+ "step": 97
809
+ },
810
+ {
811
+ "epoch": 10.88888888888889,
812
+ "grad_norm": 162307.484375,
813
+ "learning_rate": 1.12540192926045e-06,
814
+ "loss": 0.396,
815
+ "step": 98
816
+ },
817
+ {
818
+ "epoch": 11.0,
819
+ "grad_norm": 89120.2109375,
820
+ "learning_rate": 1.136885622416169e-06,
821
+ "loss": 0.4105,
822
+ "step": 99
823
+ },
824
+ {
825
+ "epoch": 11.0,
826
+ "eval_accuracy": 0.8123564538355535,
827
+ "eval_f1": 0.8010713416118822,
828
+ "eval_loss": 0.4068741500377655,
829
+ "eval_precision": 0.8111439842209073,
830
+ "eval_recall": 0.7912457912457912,
831
+ "eval_runtime": 4.1736,
832
+ "eval_samples_per_second": 1043.218,
833
+ "eval_steps_per_second": 0.719,
834
+ "step": 99
835
+ },
836
+ {
837
+ "epoch": 11.11111111111111,
838
+ "grad_norm": 93675.4296875,
839
+ "learning_rate": 1.148369315571888e-06,
840
+ "loss": 0.3865,
841
+ "step": 100
842
+ },
843
+ {
844
+ "epoch": 11.222222222222221,
845
+ "grad_norm": 172021.828125,
846
+ "learning_rate": 1.1598530087276067e-06,
847
+ "loss": 0.3964,
848
+ "step": 101
849
+ },
850
+ {
851
+ "epoch": 11.333333333333334,
852
+ "grad_norm": 123080.0546875,
853
+ "learning_rate": 1.1713367018833255e-06,
854
+ "loss": 0.4166,
855
+ "step": 102
856
+ },
857
+ {
858
+ "epoch": 11.444444444444445,
859
+ "grad_norm": 71145.3203125,
860
+ "learning_rate": 1.1828203950390445e-06,
861
+ "loss": 0.3878,
862
+ "step": 103
863
+ },
864
+ {
865
+ "epoch": 11.555555555555555,
866
+ "grad_norm": 173710.0,
867
+ "learning_rate": 1.1943040881947635e-06,
868
+ "loss": 0.3828,
869
+ "step": 104
870
+ },
871
+ {
872
+ "epoch": 11.666666666666666,
873
+ "grad_norm": 165428.84375,
874
+ "learning_rate": 1.2057877813504825e-06,
875
+ "loss": 0.3871,
876
+ "step": 105
877
+ },
878
+ {
879
+ "epoch": 11.777777777777779,
880
+ "grad_norm": 267474.3125,
881
+ "learning_rate": 1.2172714745062013e-06,
882
+ "loss": 0.4003,
883
+ "step": 106
884
+ },
885
+ {
886
+ "epoch": 11.88888888888889,
887
+ "grad_norm": 162812.609375,
888
+ "learning_rate": 1.2287551676619201e-06,
889
+ "loss": 0.4023,
890
+ "step": 107
891
+ },
892
+ {
893
+ "epoch": 12.0,
894
+ "grad_norm": 166778.921875,
895
+ "learning_rate": 1.2402388608176391e-06,
896
+ "loss": 0.4018,
897
+ "step": 108
898
+ },
899
+ {
900
+ "epoch": 12.0,
901
+ "eval_accuracy": 0.8118971061093248,
902
+ "eval_f1": 0.8019347037484885,
903
+ "eval_loss": 0.4067639112472534,
904
+ "eval_precision": 0.806420233463035,
905
+ "eval_recall": 0.7974987974987975,
906
+ "eval_runtime": 4.1933,
907
+ "eval_samples_per_second": 1038.322,
908
+ "eval_steps_per_second": 0.715,
909
+ "step": 108
910
+ },
911
+ {
912
+ "epoch": 12.11111111111111,
913
+ "grad_norm": 112960.7890625,
914
+ "learning_rate": 1.251722553973358e-06,
915
+ "loss": 0.3929,
916
+ "step": 109
917
+ },
918
+ {
919
+ "epoch": 12.222222222222221,
920
+ "grad_norm": 301508.375,
921
+ "learning_rate": 1.2632062471290767e-06,
922
+ "loss": 0.4061,
923
+ "step": 110
924
+ },
925
+ {
926
+ "epoch": 12.333333333333334,
927
+ "grad_norm": 254152.53125,
928
+ "learning_rate": 1.2746899402847958e-06,
929
+ "loss": 0.4029,
930
+ "step": 111
931
+ },
932
+ {
933
+ "epoch": 12.444444444444445,
934
+ "grad_norm": 104616.0859375,
935
+ "learning_rate": 1.2861736334405146e-06,
936
+ "loss": 0.3967,
937
+ "step": 112
938
+ },
939
+ {
940
+ "epoch": 12.555555555555555,
941
+ "grad_norm": 166745.109375,
942
+ "learning_rate": 1.2976573265962333e-06,
943
+ "loss": 0.4009,
944
+ "step": 113
945
+ },
946
+ {
947
+ "epoch": 12.666666666666666,
948
+ "grad_norm": 58958.81640625,
949
+ "learning_rate": 1.3091410197519524e-06,
950
+ "loss": 0.3897,
951
+ "step": 114
952
+ },
953
+ {
954
+ "epoch": 12.777777777777779,
955
+ "grad_norm": 322038.0625,
956
+ "learning_rate": 1.3206247129076712e-06,
957
+ "loss": 0.405,
958
+ "step": 115
959
+ },
960
+ {
961
+ "epoch": 12.88888888888889,
962
+ "grad_norm": 92102.4140625,
963
+ "learning_rate": 1.33210840606339e-06,
964
+ "loss": 0.4068,
965
+ "step": 116
966
+ },
967
+ {
968
+ "epoch": 13.0,
969
+ "grad_norm": 150015.234375,
970
+ "learning_rate": 1.343592099219109e-06,
971
+ "loss": 0.365,
972
+ "step": 117
973
+ },
974
+ {
975
+ "epoch": 13.0,
976
+ "eval_accuracy": 0.8118971061093248,
977
+ "eval_f1": 0.8020304568527918,
978
+ "eval_loss": 0.4065192937850952,
979
+ "eval_precision": 0.8061224489795918,
980
+ "eval_recall": 0.797979797979798,
981
+ "eval_runtime": 4.2544,
982
+ "eval_samples_per_second": 1023.409,
983
+ "eval_steps_per_second": 0.705,
984
+ "step": 117
985
+ },
986
+ {
987
+ "epoch": 13.11111111111111,
988
+ "grad_norm": 95103.921875,
989
+ "learning_rate": 1.3550757923748278e-06,
990
+ "loss": 0.4172,
991
+ "step": 118
992
+ },
993
+ {
994
+ "epoch": 13.222222222222221,
995
+ "grad_norm": 113910.25,
996
+ "learning_rate": 1.3665594855305466e-06,
997
+ "loss": 0.3879,
998
+ "step": 119
999
+ },
1000
+ {
1001
+ "epoch": 13.333333333333334,
1002
+ "grad_norm": 171457.375,
1003
+ "learning_rate": 1.3780431786862656e-06,
1004
+ "loss": 0.4148,
1005
+ "step": 120
1006
+ },
1007
+ {
1008
+ "epoch": 13.444444444444445,
1009
+ "grad_norm": 266275.84375,
1010
+ "learning_rate": 1.3895268718419844e-06,
1011
+ "loss": 0.3913,
1012
+ "step": 121
1013
+ },
1014
+ {
1015
+ "epoch": 13.555555555555555,
1016
+ "grad_norm": 56887.02734375,
1017
+ "learning_rate": 1.4010105649977032e-06,
1018
+ "loss": 0.4045,
1019
+ "step": 122
1020
+ },
1021
+ {
1022
+ "epoch": 13.666666666666666,
1023
+ "grad_norm": 59645.34765625,
1024
+ "learning_rate": 1.4124942581534222e-06,
1025
+ "loss": 0.4117,
1026
+ "step": 123
1027
+ },
1028
+ {
1029
+ "epoch": 13.777777777777779,
1030
+ "grad_norm": 236620.359375,
1031
+ "learning_rate": 1.423977951309141e-06,
1032
+ "loss": 0.3871,
1033
+ "step": 124
1034
+ },
1035
+ {
1036
+ "epoch": 13.88888888888889,
1037
+ "grad_norm": 60322.78515625,
1038
+ "learning_rate": 1.4354616444648598e-06,
1039
+ "loss": 0.3879,
1040
+ "step": 125
1041
+ },
1042
+ {
1043
+ "epoch": 14.0,
1044
+ "grad_norm": 121960.0,
1045
+ "learning_rate": 1.4469453376205788e-06,
1046
+ "loss": 0.3973,
1047
+ "step": 126
1048
+ },
1049
+ {
1050
+ "epoch": 14.0,
1051
+ "eval_accuracy": 0.813275149288011,
1052
+ "eval_f1": 0.8043321299638989,
1053
+ "eval_loss": 0.4063498079776764,
1054
+ "eval_precision": 0.8049132947976878,
1055
+ "eval_recall": 0.8037518037518038,
1056
+ "eval_runtime": 4.2859,
1057
+ "eval_samples_per_second": 1015.878,
1058
+ "eval_steps_per_second": 0.7,
1059
+ "step": 126
1060
+ },
1061
+ {
1062
+ "epoch": 14.11111111111111,
1063
+ "grad_norm": 207117.59375,
1064
+ "learning_rate": 1.4584290307762978e-06,
1065
+ "loss": 0.4161,
1066
+ "step": 127
1067
+ },
1068
+ {
1069
+ "epoch": 14.222222222222221,
1070
+ "grad_norm": 126602.25,
1071
+ "learning_rate": 1.4699127239320166e-06,
1072
+ "loss": 0.4169,
1073
+ "step": 128
1074
+ },
1075
+ {
1076
+ "epoch": 14.333333333333334,
1077
+ "grad_norm": 130595.4296875,
1078
+ "learning_rate": 1.4813964170877356e-06,
1079
+ "loss": 0.3908,
1080
+ "step": 129
1081
+ },
1082
+ {
1083
+ "epoch": 14.444444444444445,
1084
+ "grad_norm": 112879.7578125,
1085
+ "learning_rate": 1.4928801102434544e-06,
1086
+ "loss": 0.3991,
1087
+ "step": 130
1088
+ },
1089
+ {
1090
+ "epoch": 14.555555555555555,
1091
+ "grad_norm": 155991.609375,
1092
+ "learning_rate": 1.5043638033991732e-06,
1093
+ "loss": 0.3913,
1094
+ "step": 131
1095
+ },
1096
+ {
1097
+ "epoch": 14.666666666666666,
1098
+ "grad_norm": 159955.5,
1099
+ "learning_rate": 1.5158474965548922e-06,
1100
+ "loss": 0.3898,
1101
+ "step": 132
1102
+ },
1103
+ {
1104
+ "epoch": 14.777777777777779,
1105
+ "grad_norm": 118653.71875,
1106
+ "learning_rate": 1.527331189710611e-06,
1107
+ "loss": 0.3725,
1108
+ "step": 133
1109
+ },
1110
+ {
1111
+ "epoch": 14.88888888888889,
1112
+ "grad_norm": 250835.40625,
1113
+ "learning_rate": 1.5388148828663298e-06,
1114
+ "loss": 0.384,
1115
+ "step": 134
1116
+ },
1117
+ {
1118
+ "epoch": 15.0,
1119
+ "grad_norm": 181872.25,
1120
+ "learning_rate": 1.5502985760220488e-06,
1121
+ "loss": 0.3987,
1122
+ "step": 135
1123
+ },
1124
+ {
1125
+ "epoch": 15.0,
1126
+ "eval_accuracy": 0.8137344970142398,
1127
+ "eval_f1": 0.8015659407878639,
1128
+ "eval_loss": 0.4055207073688507,
1129
+ "eval_precision": 0.8157370517928287,
1130
+ "eval_recall": 0.7878787878787878,
1131
+ "eval_runtime": 4.3323,
1132
+ "eval_samples_per_second": 1005.014,
1133
+ "eval_steps_per_second": 0.692,
1134
+ "step": 135
1135
+ },
1136
+ {
1137
+ "epoch": 15.11111111111111,
1138
+ "grad_norm": 95328.6484375,
1139
+ "learning_rate": 1.5617822691777676e-06,
1140
+ "loss": 0.3815,
1141
+ "step": 136
1142
+ },
1143
+ {
1144
+ "epoch": 15.222222222222221,
1145
+ "grad_norm": 119895.4375,
1146
+ "learning_rate": 1.5732659623334864e-06,
1147
+ "loss": 0.4165,
1148
+ "step": 137
1149
+ },
1150
+ {
1151
+ "epoch": 15.333333333333334,
1152
+ "grad_norm": 248995.484375,
1153
+ "learning_rate": 1.5847496554892054e-06,
1154
+ "loss": 0.3914,
1155
+ "step": 138
1156
+ },
1157
+ {
1158
+ "epoch": 15.444444444444445,
1159
+ "grad_norm": 89783.515625,
1160
+ "learning_rate": 1.5962333486449242e-06,
1161
+ "loss": 0.3873,
1162
+ "step": 139
1163
+ },
1164
+ {
1165
+ "epoch": 15.555555555555555,
1166
+ "grad_norm": 129638.3671875,
1167
+ "learning_rate": 1.607717041800643e-06,
1168
+ "loss": 0.3887,
1169
+ "step": 140
1170
+ },
1171
+ {
1172
+ "epoch": 15.666666666666666,
1173
+ "grad_norm": 103552.0859375,
1174
+ "learning_rate": 1.619200734956362e-06,
1175
+ "loss": 0.4078,
1176
+ "step": 141
1177
+ },
1178
+ {
1179
+ "epoch": 15.777777777777779,
1180
+ "grad_norm": 274991.84375,
1181
+ "learning_rate": 1.6306844281120808e-06,
1182
+ "loss": 0.3978,
1183
+ "step": 142
1184
+ },
1185
+ {
1186
+ "epoch": 15.88888888888889,
1187
+ "grad_norm": 289934.40625,
1188
+ "learning_rate": 1.6421681212677996e-06,
1189
+ "loss": 0.3748,
1190
+ "step": 143
1191
+ },
1192
+ {
1193
+ "epoch": 16.0,
1194
+ "grad_norm": 113621.3359375,
1195
+ "learning_rate": 1.6536518144235186e-06,
1196
+ "loss": 0.4035,
1197
+ "step": 144
1198
+ },
1199
+ {
1200
+ "epoch": 16.0,
1201
+ "eval_accuracy": 0.8125861276986679,
1202
+ "eval_f1": 0.8022297624818225,
1203
+ "eval_loss": 0.40545299649238586,
1204
+ "eval_precision": 0.8085002442598925,
1205
+ "eval_recall": 0.796055796055796,
1206
+ "eval_runtime": 4.347,
1207
+ "eval_samples_per_second": 1001.605,
1208
+ "eval_steps_per_second": 0.69,
1209
+ "step": 144
1210
+ },
1211
+ {
1212
+ "epoch": 16.11111111111111,
1213
+ "grad_norm": 146140.265625,
1214
+ "learning_rate": 1.6651355075792374e-06,
1215
+ "loss": 0.3882,
1216
+ "step": 145
1217
+ },
1218
+ {
1219
+ "epoch": 16.22222222222222,
1220
+ "grad_norm": 108806.140625,
1221
+ "learning_rate": 1.6766192007349562e-06,
1222
+ "loss": 0.409,
1223
+ "step": 146
1224
+ },
1225
+ {
1226
+ "epoch": 16.333333333333332,
1227
+ "grad_norm": 157681.09375,
1228
+ "learning_rate": 1.6881028938906753e-06,
1229
+ "loss": 0.3915,
1230
+ "step": 147
1231
+ },
1232
+ {
1233
+ "epoch": 16.444444444444443,
1234
+ "grad_norm": 100690.9375,
1235
+ "learning_rate": 1.699586587046394e-06,
1236
+ "loss": 0.3947,
1237
+ "step": 148
1238
+ },
1239
+ {
1240
+ "epoch": 16.555555555555557,
1241
+ "grad_norm": 401684.625,
1242
+ "learning_rate": 1.7110702802021129e-06,
1243
+ "loss": 0.4007,
1244
+ "step": 149
1245
+ },
1246
+ {
1247
+ "epoch": 16.666666666666668,
1248
+ "grad_norm": 195763.71875,
1249
+ "learning_rate": 1.722553973357832e-06,
1250
+ "loss": 0.3802,
1251
+ "step": 150
1252
+ },
1253
+ {
1254
+ "epoch": 16.77777777777778,
1255
+ "grad_norm": 171871.40625,
1256
+ "learning_rate": 1.7340376665135509e-06,
1257
+ "loss": 0.3989,
1258
+ "step": 151
1259
+ },
1260
+ {
1261
+ "epoch": 16.88888888888889,
1262
+ "grad_norm": 380800.71875,
1263
+ "learning_rate": 1.7455213596692697e-06,
1264
+ "loss": 0.394,
1265
+ "step": 152
1266
+ },
1267
+ {
1268
+ "epoch": 17.0,
1269
+ "grad_norm": 131500.703125,
1270
+ "learning_rate": 1.7570050528249887e-06,
1271
+ "loss": 0.3933,
1272
+ "step": 153
1273
+ },
1274
+ {
1275
+ "epoch": 17.0,
1276
+ "eval_accuracy": 0.8135048231511254,
1277
+ "eval_f1": 0.8044315992292871,
1278
+ "eval_loss": 0.4050571024417877,
1279
+ "eval_precision": 0.8055957549445248,
1280
+ "eval_recall": 0.8032708032708032,
1281
+ "eval_runtime": 4.4245,
1282
+ "eval_samples_per_second": 984.067,
1283
+ "eval_steps_per_second": 0.678,
1284
+ "step": 153
1285
+ },
1286
+ {
1287
+ "epoch": 17.11111111111111,
1288
+ "grad_norm": 149897.84375,
1289
+ "learning_rate": 1.7684887459807075e-06,
1290
+ "loss": 0.3868,
1291
+ "step": 154
1292
+ },
1293
+ {
1294
+ "epoch": 17.22222222222222,
1295
+ "grad_norm": 170039.859375,
1296
+ "learning_rate": 1.7799724391364263e-06,
1297
+ "loss": 0.3922,
1298
+ "step": 155
1299
+ },
1300
+ {
1301
+ "epoch": 17.333333333333332,
1302
+ "grad_norm": 97929.5234375,
1303
+ "learning_rate": 1.7914561322921453e-06,
1304
+ "loss": 0.3879,
1305
+ "step": 156
1306
+ },
1307
+ {
1308
+ "epoch": 17.444444444444443,
1309
+ "grad_norm": 226100.71875,
1310
+ "learning_rate": 1.802939825447864e-06,
1311
+ "loss": 0.4043,
1312
+ "step": 157
1313
+ },
1314
+ {
1315
+ "epoch": 17.555555555555557,
1316
+ "grad_norm": 128054.578125,
1317
+ "learning_rate": 1.8144235186035829e-06,
1318
+ "loss": 0.406,
1319
+ "step": 158
1320
+ },
1321
+ {
1322
+ "epoch": 17.666666666666668,
1323
+ "grad_norm": 319005.8125,
1324
+ "learning_rate": 1.825907211759302e-06,
1325
+ "loss": 0.4046,
1326
+ "step": 159
1327
+ },
1328
+ {
1329
+ "epoch": 17.77777777777778,
1330
+ "grad_norm": 65652.578125,
1331
+ "learning_rate": 1.8373909049150207e-06,
1332
+ "loss": 0.4033,
1333
+ "step": 160
1334
+ },
1335
+ {
1336
+ "epoch": 17.88888888888889,
1337
+ "grad_norm": 153639.953125,
1338
+ "learning_rate": 1.8488745980707395e-06,
1339
+ "loss": 0.3785,
1340
+ "step": 161
1341
+ },
1342
+ {
1343
+ "epoch": 18.0,
1344
+ "grad_norm": 459349.78125,
1345
+ "learning_rate": 1.8603582912264585e-06,
1346
+ "loss": 0.3933,
1347
+ "step": 162
1348
+ },
1349
+ {
1350
+ "epoch": 18.0,
1351
+ "eval_accuracy": 0.8137344970142398,
1352
+ "eval_f1": 0.801953601953602,
1353
+ "eval_loss": 0.40449145436286926,
1354
+ "eval_precision": 0.814484126984127,
1355
+ "eval_recall": 0.7898027898027898,
1356
+ "eval_runtime": 4.4226,
1357
+ "eval_samples_per_second": 984.498,
1358
+ "eval_steps_per_second": 0.678,
1359
+ "step": 162
1360
+ },
1361
+ {
1362
+ "epoch": 18.11111111111111,
1363
+ "grad_norm": 164870.09375,
1364
+ "learning_rate": 1.8718419843821773e-06,
1365
+ "loss": 0.3948,
1366
+ "step": 163
1367
+ },
1368
+ {
1369
+ "epoch": 18.22222222222222,
1370
+ "grad_norm": 48797.765625,
1371
+ "learning_rate": 1.883325677537896e-06,
1372
+ "loss": 0.3938,
1373
+ "step": 164
1374
+ },
1375
+ {
1376
+ "epoch": 18.333333333333332,
1377
+ "grad_norm": 87001.015625,
1378
+ "learning_rate": 1.8948093706936151e-06,
1379
+ "loss": 0.3968,
1380
+ "step": 165
1381
+ },
1382
+ {
1383
+ "epoch": 18.444444444444443,
1384
+ "grad_norm": 185905.75,
1385
+ "learning_rate": 1.906293063849334e-06,
1386
+ "loss": 0.3755,
1387
+ "step": 166
1388
+ },
1389
+ {
1390
+ "epoch": 18.555555555555557,
1391
+ "grad_norm": 381337.5,
1392
+ "learning_rate": 1.917776757005053e-06,
1393
+ "loss": 0.4084,
1394
+ "step": 167
1395
+ },
1396
+ {
1397
+ "epoch": 18.666666666666668,
1398
+ "grad_norm": 215949.28125,
1399
+ "learning_rate": 1.9292604501607717e-06,
1400
+ "loss": 0.4119,
1401
+ "step": 168
1402
+ },
1403
+ {
1404
+ "epoch": 18.77777777777778,
1405
+ "grad_norm": 156070.921875,
1406
+ "learning_rate": 1.9407441433164905e-06,
1407
+ "loss": 0.3979,
1408
+ "step": 169
1409
+ },
1410
+ {
1411
+ "epoch": 18.88888888888889,
1412
+ "grad_norm": 218265.953125,
1413
+ "learning_rate": 1.9522278364722093e-06,
1414
+ "loss": 0.3929,
1415
+ "step": 170
1416
+ },
1417
+ {
1418
+ "epoch": 19.0,
1419
+ "grad_norm": 130221.5546875,
1420
+ "learning_rate": 1.963711529627928e-06,
1421
+ "loss": 0.3806,
1422
+ "step": 171
1423
+ },
1424
+ {
1425
+ "epoch": 19.0,
1426
+ "eval_accuracy": 0.8130454754248967,
1427
+ "eval_f1": 0.8001963672066765,
1428
+ "eval_loss": 0.4040713608264923,
1429
+ "eval_precision": 0.8170426065162907,
1430
+ "eval_recall": 0.7840307840307841,
1431
+ "eval_runtime": 4.4758,
1432
+ "eval_samples_per_second": 972.78,
1433
+ "eval_steps_per_second": 0.67,
1434
+ "step": 171
1435
+ },
1436
+ {
1437
+ "epoch": 19.11111111111111,
1438
+ "grad_norm": 244566.015625,
1439
+ "learning_rate": 1.9751952227836473e-06,
1440
+ "loss": 0.3735,
1441
+ "step": 172
1442
+ },
1443
+ {
1444
+ "epoch": 19.22222222222222,
1445
+ "grad_norm": 113897.046875,
1446
+ "learning_rate": 1.986678915939366e-06,
1447
+ "loss": 0.3872,
1448
+ "step": 173
1449
+ },
1450
+ {
1451
+ "epoch": 19.333333333333332,
1452
+ "grad_norm": 167560.140625,
1453
+ "learning_rate": 1.998162609095085e-06,
1454
+ "loss": 0.4203,
1455
+ "step": 174
1456
+ },
1457
+ {
1458
+ "epoch": 19.444444444444443,
1459
+ "grad_norm": 234886.8125,
1460
+ "learning_rate": 2.0096463022508037e-06,
1461
+ "loss": 0.3856,
1462
+ "step": 175
1463
+ },
1464
+ {
1465
+ "epoch": 19.555555555555557,
1466
+ "grad_norm": 378111.03125,
1467
+ "learning_rate": 2.021129995406523e-06,
1468
+ "loss": 0.4226,
1469
+ "step": 176
1470
+ },
1471
+ {
1472
+ "epoch": 19.666666666666668,
1473
+ "grad_norm": 128344.5546875,
1474
+ "learning_rate": 2.0326136885622413e-06,
1475
+ "loss": 0.3742,
1476
+ "step": 177
1477
+ },
1478
+ {
1479
+ "epoch": 19.77777777777778,
1480
+ "grad_norm": 741984.8125,
1481
+ "learning_rate": 2.0440973817179606e-06,
1482
+ "loss": 0.4082,
1483
+ "step": 178
1484
+ },
1485
+ {
1486
+ "epoch": 19.88888888888889,
1487
+ "grad_norm": 383275.90625,
1488
+ "learning_rate": 2.0555810748736794e-06,
1489
+ "loss": 0.3992,
1490
+ "step": 179
1491
+ },
1492
+ {
1493
+ "epoch": 20.0,
1494
+ "grad_norm": 242016.46875,
1495
+ "learning_rate": 2.067064768029398e-06,
1496
+ "loss": 0.3855,
1497
+ "step": 180
1498
+ },
1499
+ {
1500
+ "epoch": 20.0,
1501
+ "eval_accuracy": 0.8174092788240698,
1502
+ "eval_f1": 0.8134240788547289,
1503
+ "eval_loss": 0.40715256333351135,
1504
+ "eval_precision": 0.7942254812098992,
1505
+ "eval_recall": 0.8335738335738335,
1506
+ "eval_runtime": 4.5663,
1507
+ "eval_samples_per_second": 953.516,
1508
+ "eval_steps_per_second": 0.657,
1509
+ "step": 180
1510
+ },
1511
+ {
1512
+ "epoch": 20.11111111111111,
1513
+ "grad_norm": 443388.9375,
1514
+ "learning_rate": 2.078548461185117e-06,
1515
+ "loss": 0.4031,
1516
+ "step": 181
1517
+ },
1518
+ {
1519
+ "epoch": 20.22222222222222,
1520
+ "grad_norm": 401805.96875,
1521
+ "learning_rate": 2.090032154340836e-06,
1522
+ "loss": 0.3979,
1523
+ "step": 182
1524
+ },
1525
+ {
1526
+ "epoch": 20.333333333333332,
1527
+ "grad_norm": 141372.265625,
1528
+ "learning_rate": 2.1015158474965545e-06,
1529
+ "loss": 0.3798,
1530
+ "step": 183
1531
+ },
1532
+ {
1533
+ "epoch": 20.444444444444443,
1534
+ "grad_norm": 205886.125,
1535
+ "learning_rate": 2.1129995406522738e-06,
1536
+ "loss": 0.3828,
1537
+ "step": 184
1538
+ },
1539
+ {
1540
+ "epoch": 20.555555555555557,
1541
+ "grad_norm": 369303.71875,
1542
+ "learning_rate": 2.124483233807993e-06,
1543
+ "loss": 0.4017,
1544
+ "step": 185
1545
+ },
1546
+ {
1547
+ "epoch": 20.666666666666668,
1548
+ "grad_norm": 126559.546875,
1549
+ "learning_rate": 2.1359669269637114e-06,
1550
+ "loss": 0.3991,
1551
+ "step": 186
1552
+ },
1553
+ {
1554
+ "epoch": 20.77777777777778,
1555
+ "grad_norm": 251650.140625,
1556
+ "learning_rate": 2.1474506201194306e-06,
1557
+ "loss": 0.4049,
1558
+ "step": 187
1559
+ },
1560
+ {
1561
+ "epoch": 20.88888888888889,
1562
+ "grad_norm": 539118.375,
1563
+ "learning_rate": 2.1589343132751494e-06,
1564
+ "loss": 0.3799,
1565
+ "step": 188
1566
+ },
1567
+ {
1568
+ "epoch": 21.0,
1569
+ "grad_norm": 433059.34375,
1570
+ "learning_rate": 2.170418006430868e-06,
1571
+ "loss": 0.4132,
1572
+ "step": 189
1573
+ },
1574
+ {
1575
+ "epoch": 21.0,
1576
+ "eval_accuracy": 0.8135048231511254,
1577
+ "eval_f1": 0.8007850834151129,
1578
+ "eval_loss": 0.40335243940353394,
1579
+ "eval_precision": 0.8172258387581373,
1580
+ "eval_recall": 0.784992784992785,
1581
+ "eval_runtime": 4.5819,
1582
+ "eval_samples_per_second": 950.264,
1583
+ "eval_steps_per_second": 0.655,
1584
+ "step": 189
1585
+ },
1586
+ {
1587
+ "epoch": 21.11111111111111,
1588
+ "grad_norm": 82284.109375,
1589
+ "learning_rate": 2.181901699586587e-06,
1590
+ "loss": 0.3892,
1591
+ "step": 190
1592
+ },
1593
+ {
1594
+ "epoch": 21.22222222222222,
1595
+ "grad_norm": 77919.21875,
1596
+ "learning_rate": 2.193385392742306e-06,
1597
+ "loss": 0.4028,
1598
+ "step": 191
1599
+ },
1600
+ {
1601
+ "epoch": 21.333333333333332,
1602
+ "grad_norm": 357442.125,
1603
+ "learning_rate": 2.2048690858980246e-06,
1604
+ "loss": 0.3961,
1605
+ "step": 192
1606
+ },
1607
+ {
1608
+ "epoch": 21.444444444444443,
1609
+ "grad_norm": 94285.2109375,
1610
+ "learning_rate": 2.216352779053744e-06,
1611
+ "loss": 0.4058,
1612
+ "step": 193
1613
+ },
1614
+ {
1615
+ "epoch": 21.555555555555557,
1616
+ "grad_norm": 243661.1875,
1617
+ "learning_rate": 2.2278364722094626e-06,
1618
+ "loss": 0.3708,
1619
+ "step": 194
1620
+ },
1621
+ {
1622
+ "epoch": 21.666666666666668,
1623
+ "grad_norm": 63565.203125,
1624
+ "learning_rate": 2.2393201653651814e-06,
1625
+ "loss": 0.4102,
1626
+ "step": 195
1627
+ },
1628
+ {
1629
+ "epoch": 21.77777777777778,
1630
+ "grad_norm": 339940.78125,
1631
+ "learning_rate": 2.2508038585209e-06,
1632
+ "loss": 0.4072,
1633
+ "step": 196
1634
+ },
1635
+ {
1636
+ "epoch": 21.88888888888889,
1637
+ "grad_norm": 214842.84375,
1638
+ "learning_rate": 2.2622875516766194e-06,
1639
+ "loss": 0.384,
1640
+ "step": 197
1641
+ },
1642
+ {
1643
+ "epoch": 22.0,
1644
+ "grad_norm": 269673.40625,
1645
+ "learning_rate": 2.273771244832338e-06,
1646
+ "loss": 0.3774,
1647
+ "step": 198
1648
+ },
1649
+ {
1650
+ "epoch": 22.0,
1651
+ "eval_accuracy": 0.8130454754248967,
1652
+ "eval_f1": 0.8005879470847623,
1653
+ "eval_loss": 0.40258845686912537,
1654
+ "eval_precision": 0.8157763354967549,
1655
+ "eval_recall": 0.785954785954786,
1656
+ "eval_runtime": 4.6468,
1657
+ "eval_samples_per_second": 936.992,
1658
+ "eval_steps_per_second": 0.646,
1659
+ "step": 198
1660
+ },
1661
+ {
1662
+ "epoch": 22.11111111111111,
1663
+ "grad_norm": 147949.28125,
1664
+ "learning_rate": 2.285254937988057e-06,
1665
+ "loss": 0.3924,
1666
+ "step": 199
1667
+ },
1668
+ {
1669
+ "epoch": 22.22222222222222,
1670
+ "grad_norm": 192279.4375,
1671
+ "learning_rate": 2.296738631143776e-06,
1672
+ "loss": 0.4075,
1673
+ "step": 200
1674
+ },
1675
+ {
1676
+ "epoch": 22.333333333333332,
1677
+ "grad_norm": 478090.40625,
1678
+ "learning_rate": 2.3082223242994946e-06,
1679
+ "loss": 0.4006,
1680
+ "step": 201
1681
+ },
1682
+ {
1683
+ "epoch": 22.444444444444443,
1684
+ "grad_norm": 264078.875,
1685
+ "learning_rate": 2.3197060174552134e-06,
1686
+ "loss": 0.4051,
1687
+ "step": 202
1688
+ },
1689
+ {
1690
+ "epoch": 22.555555555555557,
1691
+ "grad_norm": 122800.484375,
1692
+ "learning_rate": 2.3311897106109326e-06,
1693
+ "loss": 0.3937,
1694
+ "step": 203
1695
+ },
1696
+ {
1697
+ "epoch": 22.666666666666668,
1698
+ "grad_norm": 97360.9375,
1699
+ "learning_rate": 2.342673403766651e-06,
1700
+ "loss": 0.3764,
1701
+ "step": 204
1702
+ },
1703
+ {
1704
+ "epoch": 22.77777777777778,
1705
+ "grad_norm": 108199.5546875,
1706
+ "learning_rate": 2.3541570969223702e-06,
1707
+ "loss": 0.3932,
1708
+ "step": 205
1709
+ },
1710
+ {
1711
+ "epoch": 22.88888888888889,
1712
+ "grad_norm": 262427.3125,
1713
+ "learning_rate": 2.365640790078089e-06,
1714
+ "loss": 0.4015,
1715
+ "step": 206
1716
+ },
1717
+ {
1718
+ "epoch": 23.0,
1719
+ "grad_norm": 412134.5625,
1720
+ "learning_rate": 2.3771244832338083e-06,
1721
+ "loss": 0.3698,
1722
+ "step": 207
1723
+ },
1724
+ {
1725
+ "epoch": 23.0,
1726
+ "eval_accuracy": 0.8174092788240698,
1727
+ "eval_f1": 0.8103078024337866,
1728
+ "eval_loss": 0.4036799371242523,
1729
+ "eval_precision": 0.8039772727272727,
1730
+ "eval_recall": 0.8167388167388168,
1731
+ "eval_runtime": 4.658,
1732
+ "eval_samples_per_second": 934.744,
1733
+ "eval_steps_per_second": 0.644,
1734
+ "step": 207
1735
+ },
1736
+ {
1737
+ "epoch": 23.11111111111111,
1738
+ "grad_norm": 265666.25,
1739
+ "learning_rate": 2.388608176389527e-06,
1740
+ "loss": 0.386,
1741
+ "step": 208
1742
+ },
1743
+ {
1744
+ "epoch": 23.22222222222222,
1745
+ "grad_norm": 138313.109375,
1746
+ "learning_rate": 2.400091869545246e-06,
1747
+ "loss": 0.3904,
1748
+ "step": 209
1749
+ },
1750
+ {
1751
+ "epoch": 23.333333333333332,
1752
+ "grad_norm": 116725.1171875,
1753
+ "learning_rate": 2.411575562700965e-06,
1754
+ "loss": 0.3955,
1755
+ "step": 210
1756
+ },
1757
+ {
1758
+ "epoch": 23.444444444444443,
1759
+ "grad_norm": 187285.765625,
1760
+ "learning_rate": 2.4230592558566834e-06,
1761
+ "loss": 0.4069,
1762
+ "step": 211
1763
+ },
1764
+ {
1765
+ "epoch": 23.555555555555557,
1766
+ "grad_norm": 121359.4765625,
1767
+ "learning_rate": 2.4345429490124027e-06,
1768
+ "loss": 0.4008,
1769
+ "step": 212
1770
+ },
1771
+ {
1772
+ "epoch": 23.666666666666668,
1773
+ "grad_norm": 115836.03125,
1774
+ "learning_rate": 2.4460266421681215e-06,
1775
+ "loss": 0.4002,
1776
+ "step": 213
1777
+ },
1778
+ {
1779
+ "epoch": 23.77777777777778,
1780
+ "grad_norm": 76411.34375,
1781
+ "learning_rate": 2.4575103353238403e-06,
1782
+ "loss": 0.3934,
1783
+ "step": 214
1784
+ },
1785
+ {
1786
+ "epoch": 23.88888888888889,
1787
+ "grad_norm": 154353.21875,
1788
+ "learning_rate": 2.468994028479559e-06,
1789
+ "loss": 0.4057,
1790
+ "step": 215
1791
+ },
1792
+ {
1793
+ "epoch": 24.0,
1794
+ "grad_norm": 486543.96875,
1795
+ "learning_rate": 2.4804777216352783e-06,
1796
+ "loss": 0.3584,
1797
+ "step": 216
1798
+ },
1799
+ {
1800
+ "epoch": 24.0,
1801
+ "eval_accuracy": 0.8158015617822691,
1802
+ "eval_f1": 0.8058111380145279,
1803
+ "eval_loss": 0.40210822224617004,
1804
+ "eval_precision": 0.8113115553388591,
1805
+ "eval_recall": 0.8003848003848004,
1806
+ "eval_runtime": 5.1111,
1807
+ "eval_samples_per_second": 851.866,
1808
+ "eval_steps_per_second": 0.587,
1809
+ "step": 216
1810
+ },
1811
+ {
1812
+ "epoch": 24.11111111111111,
1813
+ "grad_norm": 76995.2578125,
1814
+ "learning_rate": 2.4919614147909967e-06,
1815
+ "loss": 0.4137,
1816
+ "step": 217
1817
+ },
1818
+ {
1819
+ "epoch": 24.22222222222222,
1820
+ "grad_norm": 192273.9375,
1821
+ "learning_rate": 2.503445107946716e-06,
1822
+ "loss": 0.4011,
1823
+ "step": 218
1824
+ },
1825
+ {
1826
+ "epoch": 24.333333333333332,
1827
+ "grad_norm": 61227.8359375,
1828
+ "learning_rate": 2.5149288011024347e-06,
1829
+ "loss": 0.3909,
1830
+ "step": 219
1831
+ },
1832
+ {
1833
+ "epoch": 24.444444444444443,
1834
+ "grad_norm": 221185.5,
1835
+ "learning_rate": 2.5264124942581535e-06,
1836
+ "loss": 0.3973,
1837
+ "step": 220
1838
+ },
1839
+ {
1840
+ "epoch": 24.555555555555557,
1841
+ "grad_norm": 130241.0859375,
1842
+ "learning_rate": 2.5378961874138723e-06,
1843
+ "loss": 0.3877,
1844
+ "step": 221
1845
+ },
1846
+ {
1847
+ "epoch": 24.666666666666668,
1848
+ "grad_norm": 80599.9765625,
1849
+ "learning_rate": 2.5493798805695915e-06,
1850
+ "loss": 0.4051,
1851
+ "step": 222
1852
+ },
1853
+ {
1854
+ "epoch": 24.77777777777778,
1855
+ "grad_norm": 128989.890625,
1856
+ "learning_rate": 2.56086357372531e-06,
1857
+ "loss": 0.3691,
1858
+ "step": 223
1859
+ },
1860
+ {
1861
+ "epoch": 24.88888888888889,
1862
+ "grad_norm": 320645.8125,
1863
+ "learning_rate": 2.572347266881029e-06,
1864
+ "loss": 0.3791,
1865
+ "step": 224
1866
+ },
1867
+ {
1868
+ "epoch": 25.0,
1869
+ "grad_norm": 284049.625,
1870
+ "learning_rate": 2.583830960036748e-06,
1871
+ "loss": 0.3947,
1872
+ "step": 225
1873
+ },
1874
+ {
1875
+ "epoch": 25.0,
1876
+ "eval_accuracy": 0.813275149288011,
1877
+ "eval_f1": 0.7983130736789879,
1878
+ "eval_loss": 0.40306106209754944,
1879
+ "eval_precision": 0.8242827868852459,
1880
+ "eval_recall": 0.7739297739297739,
1881
+ "eval_runtime": 4.7309,
1882
+ "eval_samples_per_second": 920.339,
1883
+ "eval_steps_per_second": 0.634,
1884
+ "step": 225
1885
+ },
1886
+ {
1887
+ "epoch": 25.11111111111111,
1888
+ "grad_norm": 519498.875,
1889
+ "learning_rate": 2.5953146531924667e-06,
1890
+ "loss": 0.413,
1891
+ "step": 226
1892
+ },
1893
+ {
1894
+ "epoch": 25.22222222222222,
1895
+ "grad_norm": 502382.40625,
1896
+ "learning_rate": 2.6067983463481855e-06,
1897
+ "loss": 0.3725,
1898
+ "step": 227
1899
+ },
1900
+ {
1901
+ "epoch": 25.333333333333332,
1902
+ "grad_norm": 379123.5,
1903
+ "learning_rate": 2.6182820395039047e-06,
1904
+ "loss": 0.3881,
1905
+ "step": 228
1906
+ },
1907
+ {
1908
+ "epoch": 25.444444444444443,
1909
+ "grad_norm": 190483.9375,
1910
+ "learning_rate": 2.629765732659623e-06,
1911
+ "loss": 0.4083,
1912
+ "step": 229
1913
+ },
1914
+ {
1915
+ "epoch": 25.555555555555557,
1916
+ "grad_norm": 216956.625,
1917
+ "learning_rate": 2.6412494258153423e-06,
1918
+ "loss": 0.3987,
1919
+ "step": 230
1920
+ },
1921
+ {
1922
+ "epoch": 25.666666666666668,
1923
+ "grad_norm": 278627.96875,
1924
+ "learning_rate": 2.6527331189710615e-06,
1925
+ "loss": 0.3936,
1926
+ "step": 231
1927
+ },
1928
+ {
1929
+ "epoch": 25.77777777777778,
1930
+ "grad_norm": 343526.4375,
1931
+ "learning_rate": 2.66421681212678e-06,
1932
+ "loss": 0.3827,
1933
+ "step": 232
1934
+ },
1935
+ {
1936
+ "epoch": 25.88888888888889,
1937
+ "grad_norm": 536376.0625,
1938
+ "learning_rate": 2.675700505282499e-06,
1939
+ "loss": 0.3932,
1940
+ "step": 233
1941
+ },
1942
+ {
1943
+ "epoch": 26.0,
1944
+ "grad_norm": 188893.734375,
1945
+ "learning_rate": 2.687184198438218e-06,
1946
+ "loss": 0.3812,
1947
+ "step": 234
1948
+ },
1949
+ {
1950
+ "epoch": 26.0,
1951
+ "eval_accuracy": 0.8180983004134129,
1952
+ "eval_f1": 0.8092485549132948,
1953
+ "eval_loss": 0.4012051820755005,
1954
+ "eval_precision": 0.8104196816208393,
1955
+ "eval_recall": 0.8080808080808081,
1956
+ "eval_runtime": 4.752,
1957
+ "eval_samples_per_second": 916.254,
1958
+ "eval_steps_per_second": 0.631,
1959
+ "step": 234
1960
+ },
1961
+ {
1962
+ "epoch": 26.11111111111111,
1963
+ "grad_norm": 89162.7421875,
1964
+ "learning_rate": 2.6986678915939367e-06,
1965
+ "loss": 0.3756,
1966
+ "step": 235
1967
+ },
1968
+ {
1969
+ "epoch": 26.22222222222222,
1970
+ "grad_norm": 246311.859375,
1971
+ "learning_rate": 2.7101515847496555e-06,
1972
+ "loss": 0.3888,
1973
+ "step": 236
1974
+ },
1975
+ {
1976
+ "epoch": 26.333333333333332,
1977
+ "grad_norm": 127793.1015625,
1978
+ "learning_rate": 2.7216352779053748e-06,
1979
+ "loss": 0.375,
1980
+ "step": 237
1981
+ },
1982
+ {
1983
+ "epoch": 26.444444444444443,
1984
+ "grad_norm": 67135.25,
1985
+ "learning_rate": 2.733118971061093e-06,
1986
+ "loss": 0.3977,
1987
+ "step": 238
1988
+ },
1989
+ {
1990
+ "epoch": 26.555555555555557,
1991
+ "grad_norm": 297287.75,
1992
+ "learning_rate": 2.7446026642168124e-06,
1993
+ "loss": 0.3989,
1994
+ "step": 239
1995
+ },
1996
+ {
1997
+ "epoch": 26.666666666666668,
1998
+ "grad_norm": 303139.96875,
1999
+ "learning_rate": 2.756086357372531e-06,
2000
+ "loss": 0.4048,
2001
+ "step": 240
2002
+ },
2003
+ {
2004
+ "epoch": 26.77777777777778,
2005
+ "grad_norm": 606317.625,
2006
+ "learning_rate": 2.76757005052825e-06,
2007
+ "loss": 0.3873,
2008
+ "step": 241
2009
+ },
2010
+ {
2011
+ "epoch": 26.88888888888889,
2012
+ "grad_norm": 172750.578125,
2013
+ "learning_rate": 2.7790537436839687e-06,
2014
+ "loss": 0.384,
2015
+ "step": 242
2016
+ },
2017
+ {
2018
+ "epoch": 27.0,
2019
+ "grad_norm": 192172.140625,
2020
+ "learning_rate": 2.790537436839688e-06,
2021
+ "loss": 0.3928,
2022
+ "step": 243
2023
+ },
2024
+ {
2025
+ "epoch": 27.0,
2026
+ "eval_accuracy": 0.8176389526871842,
2027
+ "eval_f1": 0.8086746987951807,
2028
+ "eval_loss": 0.4002959132194519,
2029
+ "eval_precision": 0.8102366006760019,
2030
+ "eval_recall": 0.8071188071188071,
2031
+ "eval_runtime": 4.5908,
2032
+ "eval_samples_per_second": 948.411,
2033
+ "eval_steps_per_second": 0.653,
2034
+ "step": 243
2035
+ },
2036
+ {
2037
+ "epoch": 27.11111111111111,
2038
+ "grad_norm": 91136.6484375,
2039
+ "learning_rate": 2.8020211299954063e-06,
2040
+ "loss": 0.3889,
2041
+ "step": 244
2042
+ },
2043
+ {
2044
+ "epoch": 27.22222222222222,
2045
+ "grad_norm": 111455.0859375,
2046
+ "learning_rate": 2.8135048231511256e-06,
2047
+ "loss": 0.3781,
2048
+ "step": 245
2049
+ },
2050
+ {
2051
+ "epoch": 27.333333333333332,
2052
+ "grad_norm": 241420.875,
2053
+ "learning_rate": 2.8249885163068444e-06,
2054
+ "loss": 0.3868,
2055
+ "step": 246
2056
+ },
2057
+ {
2058
+ "epoch": 27.444444444444443,
2059
+ "grad_norm": 108206.5078125,
2060
+ "learning_rate": 2.836472209462563e-06,
2061
+ "loss": 0.4015,
2062
+ "step": 247
2063
+ },
2064
+ {
2065
+ "epoch": 27.555555555555557,
2066
+ "grad_norm": 197683.21875,
2067
+ "learning_rate": 2.847955902618282e-06,
2068
+ "loss": 0.3877,
2069
+ "step": 248
2070
+ },
2071
+ {
2072
+ "epoch": 27.666666666666668,
2073
+ "grad_norm": 141794.296875,
2074
+ "learning_rate": 2.859439595774001e-06,
2075
+ "loss": 0.4144,
2076
+ "step": 249
2077
+ },
2078
+ {
2079
+ "epoch": 27.77777777777778,
2080
+ "grad_norm": 256132.671875,
2081
+ "learning_rate": 2.8709232889297196e-06,
2082
+ "loss": 0.3757,
2083
+ "step": 250
2084
+ },
2085
+ {
2086
+ "epoch": 27.88888888888889,
2087
+ "grad_norm": 245631.25,
2088
+ "learning_rate": 2.8824069820854388e-06,
2089
+ "loss": 0.3927,
2090
+ "step": 251
2091
+ },
2092
+ {
2093
+ "epoch": 28.0,
2094
+ "grad_norm": 213683.140625,
2095
+ "learning_rate": 2.8938906752411576e-06,
2096
+ "loss": 0.3591,
2097
+ "step": 252
2098
+ },
2099
+ {
2100
+ "epoch": 28.0,
2101
+ "eval_accuracy": 0.8183279742765274,
2102
+ "eval_f1": 0.8090755491189959,
2103
+ "eval_loss": 0.39960750937461853,
2104
+ "eval_precision": 0.812015503875969,
2105
+ "eval_recall": 0.8061568061568062,
2106
+ "eval_runtime": 4.6253,
2107
+ "eval_samples_per_second": 941.347,
2108
+ "eval_steps_per_second": 0.649,
2109
+ "step": 252
2110
+ },
2111
+ {
2112
+ "epoch": 28.11111111111111,
2113
+ "grad_norm": 148696.1875,
2114
+ "learning_rate": 2.9053743683968764e-06,
2115
+ "loss": 0.3861,
2116
+ "step": 253
2117
+ },
2118
+ {
2119
+ "epoch": 28.22222222222222,
2120
+ "grad_norm": 119950.6875,
2121
+ "learning_rate": 2.9168580615525956e-06,
2122
+ "loss": 0.3861,
2123
+ "step": 254
2124
+ },
2125
+ {
2126
+ "epoch": 28.333333333333332,
2127
+ "grad_norm": 110785.578125,
2128
+ "learning_rate": 2.9283417547083144e-06,
2129
+ "loss": 0.3765,
2130
+ "step": 255
2131
+ },
2132
+ {
2133
+ "epoch": 28.444444444444443,
2134
+ "grad_norm": 103968.75,
2135
+ "learning_rate": 2.939825447864033e-06,
2136
+ "loss": 0.3874,
2137
+ "step": 256
2138
+ },
2139
+ {
2140
+ "epoch": 28.555555555555557,
2141
+ "grad_norm": 231702.34375,
2142
+ "learning_rate": 2.951309141019752e-06,
2143
+ "loss": 0.4047,
2144
+ "step": 257
2145
+ },
2146
+ {
2147
+ "epoch": 28.666666666666668,
2148
+ "grad_norm": 127703.3359375,
2149
+ "learning_rate": 2.9627928341754712e-06,
2150
+ "loss": 0.3974,
2151
+ "step": 258
2152
+ },
2153
+ {
2154
+ "epoch": 28.77777777777778,
2155
+ "grad_norm": 246982.40625,
2156
+ "learning_rate": 2.9742765273311896e-06,
2157
+ "loss": 0.3823,
2158
+ "step": 259
2159
+ },
2160
+ {
2161
+ "epoch": 28.88888888888889,
2162
+ "grad_norm": 218037.109375,
2163
+ "learning_rate": 2.985760220486909e-06,
2164
+ "loss": 0.4092,
2165
+ "step": 260
2166
+ },
2167
+ {
2168
+ "epoch": 29.0,
2169
+ "grad_norm": 91798.8125,
2170
+ "learning_rate": 2.9972439136426276e-06,
2171
+ "loss": 0.3872,
2172
+ "step": 261
2173
+ },
2174
+ {
2175
+ "epoch": 29.0,
2176
+ "eval_accuracy": 0.8194763435920992,
2177
+ "eval_f1": 0.8103281853281853,
2178
+ "eval_loss": 0.39871689677238464,
2179
+ "eval_precision": 0.8130750605326876,
2180
+ "eval_recall": 0.8075998075998077,
2181
+ "eval_runtime": 4.6817,
2182
+ "eval_samples_per_second": 929.994,
2183
+ "eval_steps_per_second": 0.641,
2184
+ "step": 261
2185
+ },
2186
+ {
2187
+ "epoch": 29.11111111111111,
2188
+ "grad_norm": 94122.96875,
2189
+ "learning_rate": 3.0087276067983464e-06,
2190
+ "loss": 0.3935,
2191
+ "step": 262
2192
+ },
2193
+ {
2194
+ "epoch": 29.22222222222222,
2195
+ "grad_norm": 138885.125,
2196
+ "learning_rate": 3.0202112999540652e-06,
2197
+ "loss": 0.3795,
2198
+ "step": 263
2199
+ },
2200
+ {
2201
+ "epoch": 29.333333333333332,
2202
+ "grad_norm": 433285.8125,
2203
+ "learning_rate": 3.0316949931097844e-06,
2204
+ "loss": 0.3886,
2205
+ "step": 264
2206
+ },
2207
+ {
2208
+ "epoch": 29.444444444444443,
2209
+ "grad_norm": 320547.09375,
2210
+ "learning_rate": 3.043178686265503e-06,
2211
+ "loss": 0.3925,
2212
+ "step": 265
2213
+ },
2214
+ {
2215
+ "epoch": 29.555555555555557,
2216
+ "grad_norm": 82943.8203125,
2217
+ "learning_rate": 3.054662379421222e-06,
2218
+ "loss": 0.3808,
2219
+ "step": 266
2220
+ },
2221
+ {
2222
+ "epoch": 29.666666666666668,
2223
+ "grad_norm": 70880.1328125,
2224
+ "learning_rate": 3.066146072576941e-06,
2225
+ "loss": 0.3883,
2226
+ "step": 267
2227
+ },
2228
+ {
2229
+ "epoch": 29.77777777777778,
2230
+ "grad_norm": 270253.625,
2231
+ "learning_rate": 3.0776297657326596e-06,
2232
+ "loss": 0.381,
2233
+ "step": 268
2234
+ },
2235
+ {
2236
+ "epoch": 29.88888888888889,
2237
+ "grad_norm": 147631.03125,
2238
+ "learning_rate": 3.0891134588883784e-06,
2239
+ "loss": 0.3622,
2240
+ "step": 269
2241
+ },
2242
+ {
2243
+ "epoch": 30.0,
2244
+ "grad_norm": 443471.0,
2245
+ "learning_rate": 3.1005971520440976e-06,
2246
+ "loss": 0.383,
2247
+ "step": 270
2248
+ },
2249
+ {
2250
+ "epoch": 30.0,
2251
+ "eval_accuracy": 0.8208543867707855,
2252
+ "eval_f1": 0.8132183908045977,
2253
+ "eval_loss": 0.3988674283027649,
2254
+ "eval_precision": 0.8097281831187411,
2255
+ "eval_recall": 0.8167388167388168,
2256
+ "eval_runtime": 4.7223,
2257
+ "eval_samples_per_second": 922.003,
2258
+ "eval_steps_per_second": 0.635,
2259
+ "step": 270
2260
+ },
2261
+ {
2262
+ "epoch": 30.11111111111111,
2263
+ "grad_norm": 141594.78125,
2264
+ "learning_rate": 3.112080845199816e-06,
2265
+ "loss": 0.3939,
2266
+ "step": 271
2267
+ },
2268
+ {
2269
+ "epoch": 30.22222222222222,
2270
+ "grad_norm": 388412.25,
2271
+ "learning_rate": 3.1235645383555352e-06,
2272
+ "loss": 0.4021,
2273
+ "step": 272
2274
+ },
2275
+ {
2276
+ "epoch": 30.333333333333332,
2277
+ "grad_norm": 296736.5,
2278
+ "learning_rate": 3.135048231511254e-06,
2279
+ "loss": 0.3748,
2280
+ "step": 273
2281
+ },
2282
+ {
2283
+ "epoch": 30.444444444444443,
2284
+ "grad_norm": 245713.109375,
2285
+ "learning_rate": 3.146531924666973e-06,
2286
+ "loss": 0.3833,
2287
+ "step": 274
2288
+ },
2289
+ {
2290
+ "epoch": 30.555555555555557,
2291
+ "grad_norm": 128015.53125,
2292
+ "learning_rate": 3.1580156178226916e-06,
2293
+ "loss": 0.382,
2294
+ "step": 275
2295
+ },
2296
+ {
2297
+ "epoch": 30.666666666666668,
2298
+ "grad_norm": 517641.25,
2299
+ "learning_rate": 3.169499310978411e-06,
2300
+ "loss": 0.3751,
2301
+ "step": 276
2302
+ },
2303
+ {
2304
+ "epoch": 30.77777777777778,
2305
+ "grad_norm": 620331.375,
2306
+ "learning_rate": 3.1809830041341297e-06,
2307
+ "loss": 0.385,
2308
+ "step": 277
2309
+ },
2310
+ {
2311
+ "epoch": 30.88888888888889,
2312
+ "grad_norm": 141372.8125,
2313
+ "learning_rate": 3.1924666972898485e-06,
2314
+ "loss": 0.3737,
2315
+ "step": 278
2316
+ },
2317
+ {
2318
+ "epoch": 31.0,
2319
+ "grad_norm": 292104.09375,
2320
+ "learning_rate": 3.2039503904455677e-06,
2321
+ "loss": 0.3966,
2322
+ "step": 279
2323
+ },
2324
+ {
2325
+ "epoch": 31.0,
2326
+ "eval_accuracy": 0.8135048231511254,
2327
+ "eval_f1": 0.8000984736582964,
2328
+ "eval_loss": 0.39696839451789856,
2329
+ "eval_precision": 0.8194654563792234,
2330
+ "eval_recall": 0.7816257816257817,
2331
+ "eval_runtime": 5.1915,
2332
+ "eval_samples_per_second": 838.675,
2333
+ "eval_steps_per_second": 0.578,
2334
+ "step": 279
2335
+ },
2336
+ {
2337
+ "epoch": 31.11111111111111,
2338
+ "grad_norm": 268970.09375,
2339
+ "learning_rate": 3.215434083601286e-06,
2340
+ "loss": 0.3771,
2341
+ "step": 280
2342
+ },
2343
+ {
2344
+ "epoch": 31.22222222222222,
2345
+ "grad_norm": 113689.015625,
2346
+ "learning_rate": 3.2269177767570053e-06,
2347
+ "loss": 0.3979,
2348
+ "step": 281
2349
+ },
2350
+ {
2351
+ "epoch": 31.333333333333332,
2352
+ "grad_norm": 617523.125,
2353
+ "learning_rate": 3.238401469912724e-06,
2354
+ "loss": 0.3778,
2355
+ "step": 282
2356
+ },
2357
+ {
2358
+ "epoch": 31.444444444444443,
2359
+ "grad_norm": 615918.875,
2360
+ "learning_rate": 3.249885163068443e-06,
2361
+ "loss": 0.393,
2362
+ "step": 283
2363
+ },
2364
+ {
2365
+ "epoch": 31.555555555555557,
2366
+ "grad_norm": 262001.734375,
2367
+ "learning_rate": 3.2613688562241617e-06,
2368
+ "loss": 0.3789,
2369
+ "step": 284
2370
+ },
2371
+ {
2372
+ "epoch": 31.666666666666668,
2373
+ "grad_norm": 454978.09375,
2374
+ "learning_rate": 3.272852549379881e-06,
2375
+ "loss": 0.4019,
2376
+ "step": 285
2377
+ },
2378
+ {
2379
+ "epoch": 31.77777777777778,
2380
+ "grad_norm": 635157.0,
2381
+ "learning_rate": 3.2843362425355993e-06,
2382
+ "loss": 0.3867,
2383
+ "step": 286
2384
+ },
2385
+ {
2386
+ "epoch": 31.88888888888889,
2387
+ "grad_norm": 180403.53125,
2388
+ "learning_rate": 3.2958199356913185e-06,
2389
+ "loss": 0.3861,
2390
+ "step": 287
2391
+ },
2392
+ {
2393
+ "epoch": 32.0,
2394
+ "grad_norm": 741212.1875,
2395
+ "learning_rate": 3.3073036288470373e-06,
2396
+ "loss": 0.4076,
2397
+ "step": 288
2398
+ },
2399
+ {
2400
+ "epoch": 32.0,
2401
+ "eval_accuracy": 0.8139641708773542,
2402
+ "eval_f1": 0.7975,
2403
+ "eval_loss": 0.39702439308166504,
2404
+ "eval_precision": 0.8302967204580948,
2405
+ "eval_recall": 0.7671957671957672,
2406
+ "eval_runtime": 4.8033,
2407
+ "eval_samples_per_second": 906.467,
2408
+ "eval_steps_per_second": 0.625,
2409
+ "step": 288
2410
+ },
2411
+ {
2412
+ "epoch": 32.111111111111114,
2413
+ "grad_norm": 535774.0625,
2414
+ "learning_rate": 3.318787322002756e-06,
2415
+ "loss": 0.4063,
2416
+ "step": 289
2417
+ },
2418
+ {
2419
+ "epoch": 32.22222222222222,
2420
+ "grad_norm": 334477.8125,
2421
+ "learning_rate": 3.330271015158475e-06,
2422
+ "loss": 0.3786,
2423
+ "step": 290
2424
+ },
2425
+ {
2426
+ "epoch": 32.333333333333336,
2427
+ "grad_norm": 257520.453125,
2428
+ "learning_rate": 3.341754708314194e-06,
2429
+ "loss": 0.3938,
2430
+ "step": 291
2431
+ },
2432
+ {
2433
+ "epoch": 32.44444444444444,
2434
+ "grad_norm": 136671.375,
2435
+ "learning_rate": 3.3532384014699125e-06,
2436
+ "loss": 0.3573,
2437
+ "step": 292
2438
+ },
2439
+ {
2440
+ "epoch": 32.55555555555556,
2441
+ "grad_norm": 202197.96875,
2442
+ "learning_rate": 3.3647220946256317e-06,
2443
+ "loss": 0.381,
2444
+ "step": 293
2445
+ },
2446
+ {
2447
+ "epoch": 32.666666666666664,
2448
+ "grad_norm": 415211.40625,
2449
+ "learning_rate": 3.3762057877813505e-06,
2450
+ "loss": 0.3936,
2451
+ "step": 294
2452
+ },
2453
+ {
2454
+ "epoch": 32.77777777777778,
2455
+ "grad_norm": 508906.4375,
2456
+ "learning_rate": 3.3876894809370693e-06,
2457
+ "loss": 0.3865,
2458
+ "step": 295
2459
+ },
2460
+ {
2461
+ "epoch": 32.888888888888886,
2462
+ "grad_norm": 526735.875,
2463
+ "learning_rate": 3.399173174092788e-06,
2464
+ "loss": 0.3889,
2465
+ "step": 296
2466
+ },
2467
+ {
2468
+ "epoch": 33.0,
2469
+ "grad_norm": 254718.359375,
2470
+ "learning_rate": 3.4106568672485073e-06,
2471
+ "loss": 0.3876,
2472
+ "step": 297
2473
+ },
2474
+ {
2475
+ "epoch": 33.0,
2476
+ "eval_accuracy": 0.8128158015617822,
2477
+ "eval_f1": 0.7953803665578709,
2478
+ "eval_loss": 0.3970797061920166,
2479
+ "eval_precision": 0.8319327731092437,
2480
+ "eval_recall": 0.7619047619047619,
2481
+ "eval_runtime": 4.8434,
2482
+ "eval_samples_per_second": 898.952,
2483
+ "eval_steps_per_second": 0.619,
2484
+ "step": 297
2485
+ },
2486
+ {
2487
+ "epoch": 33.111111111111114,
2488
+ "grad_norm": 985664.3125,
2489
+ "learning_rate": 3.4221405604042257e-06,
2490
+ "loss": 0.393,
2491
+ "step": 298
2492
+ },
2493
+ {
2494
+ "epoch": 33.22222222222222,
2495
+ "grad_norm": 617586.375,
2496
+ "learning_rate": 3.433624253559945e-06,
2497
+ "loss": 0.3748,
2498
+ "step": 299
2499
+ },
2500
+ {
2501
+ "epoch": 33.333333333333336,
2502
+ "grad_norm": 1082033.875,
2503
+ "learning_rate": 3.445107946715664e-06,
2504
+ "loss": 0.367,
2505
+ "step": 300
2506
+ },
2507
+ {
2508
+ "epoch": 33.44444444444444,
2509
+ "grad_norm": 715623.125,
2510
+ "learning_rate": 3.4565916398713825e-06,
2511
+ "loss": 0.4088,
2512
+ "step": 301
2513
+ },
2514
+ {
2515
+ "epoch": 33.55555555555556,
2516
+ "grad_norm": 899131.875,
2517
+ "learning_rate": 3.4680753330271017e-06,
2518
+ "loss": 0.4071,
2519
+ "step": 302
2520
+ },
2521
+ {
2522
+ "epoch": 33.666666666666664,
2523
+ "grad_norm": 365789.3125,
2524
+ "learning_rate": 3.4795590261828205e-06,
2525
+ "loss": 0.3735,
2526
+ "step": 303
2527
+ },
2528
+ {
2529
+ "epoch": 33.77777777777778,
2530
+ "grad_norm": 465953.4375,
2531
+ "learning_rate": 3.4910427193385393e-06,
2532
+ "loss": 0.3921,
2533
+ "step": 304
2534
+ },
2535
+ {
2536
+ "epoch": 33.888888888888886,
2537
+ "grad_norm": 895318.9375,
2538
+ "learning_rate": 3.502526412494258e-06,
2539
+ "loss": 0.3905,
2540
+ "step": 305
2541
+ },
2542
+ {
2543
+ "epoch": 34.0,
2544
+ "grad_norm": 879623.6875,
2545
+ "learning_rate": 3.5140101056499774e-06,
2546
+ "loss": 0.3815,
2547
+ "step": 306
2548
+ },
2549
+ {
2550
+ "epoch": 34.0,
2551
+ "eval_accuracy": 0.8240698208543867,
2552
+ "eval_f1": 0.8204406938584153,
2553
+ "eval_loss": 0.39920851588249207,
2554
+ "eval_precision": 0.8001828989483311,
2555
+ "eval_recall": 0.8417508417508418,
2556
+ "eval_runtime": 4.8974,
2557
+ "eval_samples_per_second": 889.041,
2558
+ "eval_steps_per_second": 0.613,
2559
+ "step": 306
2560
+ },
2561
+ {
2562
+ "epoch": 34.111111111111114,
2563
+ "grad_norm": 629364.25,
2564
+ "learning_rate": 3.5254937988056957e-06,
2565
+ "loss": 0.3837,
2566
+ "step": 307
2567
+ },
2568
+ {
2569
+ "epoch": 34.22222222222222,
2570
+ "grad_norm": 289384.09375,
2571
+ "learning_rate": 3.536977491961415e-06,
2572
+ "loss": 0.3929,
2573
+ "step": 308
2574
+ },
2575
+ {
2576
+ "epoch": 34.333333333333336,
2577
+ "grad_norm": 151251.28125,
2578
+ "learning_rate": 3.5484611851171338e-06,
2579
+ "loss": 0.397,
2580
+ "step": 309
2581
+ },
2582
+ {
2583
+ "epoch": 34.44444444444444,
2584
+ "grad_norm": 263268.09375,
2585
+ "learning_rate": 3.5599448782728526e-06,
2586
+ "loss": 0.3895,
2587
+ "step": 310
2588
+ },
2589
+ {
2590
+ "epoch": 34.55555555555556,
2591
+ "grad_norm": 384067.28125,
2592
+ "learning_rate": 3.5714285714285714e-06,
2593
+ "loss": 0.3933,
2594
+ "step": 311
2595
+ },
2596
+ {
2597
+ "epoch": 34.666666666666664,
2598
+ "grad_norm": 820030.5,
2599
+ "learning_rate": 3.5829122645842906e-06,
2600
+ "loss": 0.3824,
2601
+ "step": 312
2602
+ },
2603
+ {
2604
+ "epoch": 34.77777777777778,
2605
+ "grad_norm": 760393.3125,
2606
+ "learning_rate": 3.594395957740009e-06,
2607
+ "loss": 0.3926,
2608
+ "step": 313
2609
+ },
2610
+ {
2611
+ "epoch": 34.888888888888886,
2612
+ "grad_norm": 87286.8359375,
2613
+ "learning_rate": 3.605879650895728e-06,
2614
+ "loss": 0.3757,
2615
+ "step": 314
2616
+ },
2617
+ {
2618
+ "epoch": 35.0,
2619
+ "grad_norm": 178669.046875,
2620
+ "learning_rate": 3.617363344051447e-06,
2621
+ "loss": 0.369,
2622
+ "step": 315
2623
+ },
2624
+ {
2625
+ "epoch": 35.0,
2626
+ "eval_accuracy": 0.8231511254019293,
2627
+ "eval_f1": 0.8168411037107517,
2628
+ "eval_loss": 0.3967457413673401,
2629
+ "eval_precision": 0.808,
2630
+ "eval_recall": 0.8258778258778259,
2631
+ "eval_runtime": 4.9488,
2632
+ "eval_samples_per_second": 879.801,
2633
+ "eval_steps_per_second": 0.606,
2634
+ "step": 315
2635
+ },
2636
+ {
2637
+ "epoch": 35.111111111111114,
2638
+ "grad_norm": 358338.8125,
2639
+ "learning_rate": 3.6288470372071658e-06,
2640
+ "loss": 0.3697,
2641
+ "step": 316
2642
+ },
2643
+ {
2644
+ "epoch": 35.22222222222222,
2645
+ "grad_norm": 202919.984375,
2646
+ "learning_rate": 3.6403307303628846e-06,
2647
+ "loss": 0.3829,
2648
+ "step": 317
2649
+ },
2650
+ {
2651
+ "epoch": 35.333333333333336,
2652
+ "grad_norm": 600207.375,
2653
+ "learning_rate": 3.651814423518604e-06,
2654
+ "loss": 0.389,
2655
+ "step": 318
2656
+ },
2657
+ {
2658
+ "epoch": 35.44444444444444,
2659
+ "grad_norm": 101190.6875,
2660
+ "learning_rate": 3.663298116674322e-06,
2661
+ "loss": 0.3744,
2662
+ "step": 319
2663
+ },
2664
+ {
2665
+ "epoch": 35.55555555555556,
2666
+ "grad_norm": 161650.578125,
2667
+ "learning_rate": 3.6747818098300414e-06,
2668
+ "loss": 0.4155,
2669
+ "step": 320
2670
+ },
2671
+ {
2672
+ "epoch": 35.666666666666664,
2673
+ "grad_norm": 748048.6875,
2674
+ "learning_rate": 3.68626550298576e-06,
2675
+ "loss": 0.4249,
2676
+ "step": 321
2677
+ },
2678
+ {
2679
+ "epoch": 35.77777777777778,
2680
+ "grad_norm": 1179157.0,
2681
+ "learning_rate": 3.697749196141479e-06,
2682
+ "loss": 0.3645,
2683
+ "step": 322
2684
+ },
2685
+ {
2686
+ "epoch": 35.888888888888886,
2687
+ "grad_norm": 847522.25,
2688
+ "learning_rate": 3.709232889297198e-06,
2689
+ "loss": 0.4006,
2690
+ "step": 323
2691
+ },
2692
+ {
2693
+ "epoch": 36.0,
2694
+ "grad_norm": 1134314.125,
2695
+ "learning_rate": 3.720716582452917e-06,
2696
+ "loss": 0.3825,
2697
+ "step": 324
2698
+ },
2699
+ {
2700
+ "epoch": 36.0,
2701
+ "eval_accuracy": 0.8167202572347267,
2702
+ "eval_f1": 0.8037383177570093,
2703
+ "eval_loss": 0.3938184976577759,
2704
+ "eval_precision": 0.8223452440865626,
2705
+ "eval_recall": 0.785954785954786,
2706
+ "eval_runtime": 4.9706,
2707
+ "eval_samples_per_second": 875.943,
2708
+ "eval_steps_per_second": 0.604,
2709
+ "step": 324
2710
+ },
2711
+ {
2712
+ "epoch": 36.111111111111114,
2713
+ "grad_norm": 219243.015625,
2714
+ "learning_rate": 3.732200275608636e-06,
2715
+ "loss": 0.3819,
2716
+ "step": 325
2717
+ },
2718
+ {
2719
+ "epoch": 36.22222222222222,
2720
+ "grad_norm": 178601.828125,
2721
+ "learning_rate": 3.7436839687643546e-06,
2722
+ "loss": 0.3902,
2723
+ "step": 326
2724
+ },
2725
+ {
2726
+ "epoch": 36.333333333333336,
2727
+ "grad_norm": 770971.6875,
2728
+ "learning_rate": 3.755167661920074e-06,
2729
+ "loss": 0.3764,
2730
+ "step": 327
2731
+ },
2732
+ {
2733
+ "epoch": 36.44444444444444,
2734
+ "grad_norm": 508608.3125,
2735
+ "learning_rate": 3.766651355075792e-06,
2736
+ "loss": 0.3837,
2737
+ "step": 328
2738
+ },
2739
+ {
2740
+ "epoch": 36.55555555555556,
2741
+ "grad_norm": 697210.75,
2742
+ "learning_rate": 3.7781350482315114e-06,
2743
+ "loss": 0.3894,
2744
+ "step": 329
2745
+ },
2746
+ {
2747
+ "epoch": 36.666666666666664,
2748
+ "grad_norm": 183407.328125,
2749
+ "learning_rate": 3.7896187413872302e-06,
2750
+ "loss": 0.3919,
2751
+ "step": 330
2752
+ },
2753
+ {
2754
+ "epoch": 36.77777777777778,
2755
+ "grad_norm": 226463.875,
2756
+ "learning_rate": 3.801102434542949e-06,
2757
+ "loss": 0.3667,
2758
+ "step": 331
2759
+ },
2760
+ {
2761
+ "epoch": 36.888888888888886,
2762
+ "grad_norm": 320285.21875,
2763
+ "learning_rate": 3.812586127698668e-06,
2764
+ "loss": 0.3953,
2765
+ "step": 332
2766
+ },
2767
+ {
2768
+ "epoch": 37.0,
2769
+ "grad_norm": 125119.46875,
2770
+ "learning_rate": 3.824069820854387e-06,
2771
+ "loss": 0.3684,
2772
+ "step": 333
2773
+ },
2774
+ {
2775
+ "epoch": 37.0,
2776
+ "eval_accuracy": 0.815112540192926,
2777
+ "eval_f1": 0.8002976928801786,
2778
+ "eval_loss": 0.3938528597354889,
2779
+ "eval_precision": 0.8263319672131147,
2780
+ "eval_recall": 0.7758537758537759,
2781
+ "eval_runtime": 5.031,
2782
+ "eval_samples_per_second": 865.438,
2783
+ "eval_steps_per_second": 0.596,
2784
+ "step": 333
2785
+ },
2786
+ {
2787
+ "epoch": 37.111111111111114,
2788
+ "grad_norm": 502826.6875,
2789
+ "learning_rate": 3.835553514010106e-06,
2790
+ "loss": 0.3702,
2791
+ "step": 334
2792
+ },
2793
+ {
2794
+ "epoch": 37.22222222222222,
2795
+ "grad_norm": 216404.84375,
2796
+ "learning_rate": 3.847037207165825e-06,
2797
+ "loss": 0.3821,
2798
+ "step": 335
2799
+ },
2800
+ {
2801
+ "epoch": 37.333333333333336,
2802
+ "grad_norm": 239700.234375,
2803
+ "learning_rate": 3.8585209003215434e-06,
2804
+ "loss": 0.3714,
2805
+ "step": 336
2806
+ },
2807
+ {
2808
+ "epoch": 37.44444444444444,
2809
+ "grad_norm": 152418.90625,
2810
+ "learning_rate": 3.870004593477263e-06,
2811
+ "loss": 0.3965,
2812
+ "step": 337
2813
+ },
2814
+ {
2815
+ "epoch": 37.55555555555556,
2816
+ "grad_norm": 279164.09375,
2817
+ "learning_rate": 3.881488286632981e-06,
2818
+ "loss": 0.4086,
2819
+ "step": 338
2820
+ },
2821
+ {
2822
+ "epoch": 37.666666666666664,
2823
+ "grad_norm": 179164.71875,
2824
+ "learning_rate": 3.8929719797887e-06,
2825
+ "loss": 0.3946,
2826
+ "step": 339
2827
+ },
2828
+ {
2829
+ "epoch": 37.77777777777778,
2830
+ "grad_norm": 264468.34375,
2831
+ "learning_rate": 3.904455672944419e-06,
2832
+ "loss": 0.374,
2833
+ "step": 340
2834
+ },
2835
+ {
2836
+ "epoch": 37.888888888888886,
2837
+ "grad_norm": 131274.546875,
2838
+ "learning_rate": 3.915939366100138e-06,
2839
+ "loss": 0.3934,
2840
+ "step": 341
2841
+ },
2842
+ {
2843
+ "epoch": 38.0,
2844
+ "grad_norm": 277462.40625,
2845
+ "learning_rate": 3.927423059255856e-06,
2846
+ "loss": 0.3433,
2847
+ "step": 342
2848
+ },
2849
+ {
2850
+ "epoch": 38.0,
2851
+ "eval_accuracy": 0.821773082223243,
2852
+ "eval_f1": 0.8121065375302663,
2853
+ "eval_loss": 0.3931880295276642,
2854
+ "eval_precision": 0.817649926864944,
2855
+ "eval_recall": 0.8066378066378066,
2856
+ "eval_runtime": 5.087,
2857
+ "eval_samples_per_second": 855.913,
2858
+ "eval_steps_per_second": 0.59,
2859
+ "step": 342
2860
+ },
2861
+ {
2862
+ "epoch": 38.111111111111114,
2863
+ "grad_norm": 168592.34375,
2864
+ "learning_rate": 3.9389067524115755e-06,
2865
+ "loss": 0.3766,
2866
+ "step": 343
2867
+ },
2868
+ {
2869
+ "epoch": 38.22222222222222,
2870
+ "grad_norm": 163537.234375,
2871
+ "learning_rate": 3.950390445567295e-06,
2872
+ "loss": 0.386,
2873
+ "step": 344
2874
+ },
2875
+ {
2876
+ "epoch": 38.333333333333336,
2877
+ "grad_norm": 583295.9375,
2878
+ "learning_rate": 3.961874138723013e-06,
2879
+ "loss": 0.3867,
2880
+ "step": 345
2881
+ },
2882
+ {
2883
+ "epoch": 38.44444444444444,
2884
+ "grad_norm": 70029.2734375,
2885
+ "learning_rate": 3.973357831878732e-06,
2886
+ "loss": 0.3735,
2887
+ "step": 346
2888
+ },
2889
+ {
2890
+ "epoch": 38.55555555555556,
2891
+ "grad_norm": 503096.8125,
2892
+ "learning_rate": 3.9848415250344515e-06,
2893
+ "loss": 0.3764,
2894
+ "step": 347
2895
+ },
2896
+ {
2897
+ "epoch": 38.666666666666664,
2898
+ "grad_norm": 505206.1875,
2899
+ "learning_rate": 3.99632521819017e-06,
2900
+ "loss": 0.3751,
2901
+ "step": 348
2902
+ },
2903
+ {
2904
+ "epoch": 38.77777777777778,
2905
+ "grad_norm": 191592.875,
2906
+ "learning_rate": 4.007808911345889e-06,
2907
+ "loss": 0.4098,
2908
+ "step": 349
2909
+ },
2910
+ {
2911
+ "epoch": 38.888888888888886,
2912
+ "grad_norm": 491039.40625,
2913
+ "learning_rate": 4.0192926045016075e-06,
2914
+ "loss": 0.3724,
2915
+ "step": 350
2916
+ },
2917
+ {
2918
+ "epoch": 39.0,
2919
+ "grad_norm": 815383.25,
2920
+ "learning_rate": 4.030776297657327e-06,
2921
+ "loss": 0.3968,
2922
+ "step": 351
2923
+ },
2924
+ {
2925
+ "epoch": 39.0,
2926
+ "eval_accuracy": 0.823610473128158,
2927
+ "eval_f1": 0.8191238813000471,
2928
+ "eval_loss": 0.3962981402873993,
2929
+ "eval_precision": 0.8024919243193355,
2930
+ "eval_recall": 0.8364598364598365,
2931
+ "eval_runtime": 5.5822,
2932
+ "eval_samples_per_second": 779.985,
2933
+ "eval_steps_per_second": 0.537,
2934
+ "step": 351
2935
+ },
2936
+ {
2937
+ "epoch": 39.111111111111114,
2938
+ "grad_norm": 616299.0,
2939
+ "learning_rate": 4.042259990813046e-06,
2940
+ "loss": 0.4,
2941
+ "step": 352
2942
+ },
2943
+ {
2944
+ "epoch": 39.22222222222222,
2945
+ "grad_norm": 390517.84375,
2946
+ "learning_rate": 4.053743683968765e-06,
2947
+ "loss": 0.3874,
2948
+ "step": 353
2949
+ },
2950
+ {
2951
+ "epoch": 39.333333333333336,
2952
+ "grad_norm": 101405.28125,
2953
+ "learning_rate": 4.065227377124483e-06,
2954
+ "loss": 0.3804,
2955
+ "step": 354
2956
+ },
2957
+ {
2958
+ "epoch": 39.44444444444444,
2959
+ "grad_norm": 803522.0,
2960
+ "learning_rate": 4.076711070280202e-06,
2961
+ "loss": 0.4033,
2962
+ "step": 355
2963
+ },
2964
+ {
2965
+ "epoch": 39.55555555555556,
2966
+ "grad_norm": 676551.6875,
2967
+ "learning_rate": 4.088194763435921e-06,
2968
+ "loss": 0.3897,
2969
+ "step": 356
2970
+ },
2971
+ {
2972
+ "epoch": 39.666666666666664,
2973
+ "grad_norm": 1587823.0,
2974
+ "learning_rate": 4.09967845659164e-06,
2975
+ "loss": 0.3898,
2976
+ "step": 357
2977
+ },
2978
+ {
2979
+ "epoch": 39.77777777777778,
2980
+ "grad_norm": 1047884.4375,
2981
+ "learning_rate": 4.111162149747359e-06,
2982
+ "loss": 0.3717,
2983
+ "step": 358
2984
+ },
2985
+ {
2986
+ "epoch": 39.888888888888886,
2987
+ "grad_norm": 336138.5,
2988
+ "learning_rate": 4.122645842903078e-06,
2989
+ "loss": 0.3901,
2990
+ "step": 359
2991
+ },
2992
+ {
2993
+ "epoch": 40.0,
2994
+ "grad_norm": 352737.96875,
2995
+ "learning_rate": 4.134129536058796e-06,
2996
+ "loss": 0.3728,
2997
+ "step": 360
2998
+ },
2999
+ {
3000
+ "epoch": 40.0,
3001
+ "eval_accuracy": 0.823610473128158,
3002
+ "eval_f1": 0.8176638176638177,
3003
+ "eval_loss": 0.39358338713645935,
3004
+ "eval_precision": 0.8073136427566807,
3005
+ "eval_recall": 0.8282828282828283,
3006
+ "eval_runtime": 5.1339,
3007
+ "eval_samples_per_second": 848.091,
3008
+ "eval_steps_per_second": 0.584,
3009
+ "step": 360
3010
+ },
3011
+ {
3012
+ "epoch": 40.111111111111114,
3013
+ "grad_norm": 635885.75,
3014
+ "learning_rate": 4.1456132292145155e-06,
3015
+ "loss": 0.3848,
3016
+ "step": 361
3017
+ },
3018
+ {
3019
+ "epoch": 40.22222222222222,
3020
+ "grad_norm": 535277.4375,
3021
+ "learning_rate": 4.157096922370234e-06,
3022
+ "loss": 0.3836,
3023
+ "step": 362
3024
+ },
3025
+ {
3026
+ "epoch": 40.333333333333336,
3027
+ "grad_norm": 503451.34375,
3028
+ "learning_rate": 4.168580615525953e-06,
3029
+ "loss": 0.3599,
3030
+ "step": 363
3031
+ },
3032
+ {
3033
+ "epoch": 40.44444444444444,
3034
+ "grad_norm": 177537.828125,
3035
+ "learning_rate": 4.180064308681672e-06,
3036
+ "loss": 0.3727,
3037
+ "step": 364
3038
+ },
3039
+ {
3040
+ "epoch": 40.55555555555556,
3041
+ "grad_norm": 400331.65625,
3042
+ "learning_rate": 4.1915480018373916e-06,
3043
+ "loss": 0.3874,
3044
+ "step": 365
3045
+ },
3046
+ {
3047
+ "epoch": 40.666666666666664,
3048
+ "grad_norm": 1095307.75,
3049
+ "learning_rate": 4.203031694993109e-06,
3050
+ "loss": 0.3961,
3051
+ "step": 366
3052
+ },
3053
+ {
3054
+ "epoch": 40.77777777777778,
3055
+ "grad_norm": 919089.5625,
3056
+ "learning_rate": 4.214515388148828e-06,
3057
+ "loss": 0.3891,
3058
+ "step": 367
3059
+ },
3060
+ {
3061
+ "epoch": 40.888888888888886,
3062
+ "grad_norm": 973522.375,
3063
+ "learning_rate": 4.2259990813045475e-06,
3064
+ "loss": 0.3881,
3065
+ "step": 368
3066
+ },
3067
+ {
3068
+ "epoch": 41.0,
3069
+ "grad_norm": 517725.1875,
3070
+ "learning_rate": 4.237482774460267e-06,
3071
+ "loss": 0.3914,
3072
+ "step": 369
3073
+ },
3074
+ {
3075
+ "epoch": 41.0,
3076
+ "eval_accuracy": 0.8240698208543867,
3077
+ "eval_f1": 0.8180522565320665,
3078
+ "eval_loss": 0.3933127820491791,
3079
+ "eval_precision": 0.8080713280150165,
3080
+ "eval_recall": 0.8282828282828283,
3081
+ "eval_runtime": 5.193,
3082
+ "eval_samples_per_second": 838.429,
3083
+ "eval_steps_per_second": 0.578,
3084
+ "step": 369
3085
+ },
3086
+ {
3087
+ "epoch": 41.111111111111114,
3088
+ "grad_norm": 411101.21875,
3089
+ "learning_rate": 4.248966467615986e-06,
3090
+ "loss": 0.3875,
3091
+ "step": 370
3092
+ },
3093
+ {
3094
+ "epoch": 41.22222222222222,
3095
+ "grad_norm": 953085.1875,
3096
+ "learning_rate": 4.260450160771704e-06,
3097
+ "loss": 0.3899,
3098
+ "step": 371
3099
+ },
3100
+ {
3101
+ "epoch": 41.333333333333336,
3102
+ "grad_norm": 1096262.375,
3103
+ "learning_rate": 4.271933853927423e-06,
3104
+ "loss": 0.3916,
3105
+ "step": 372
3106
+ },
3107
+ {
3108
+ "epoch": 41.44444444444444,
3109
+ "grad_norm": 834261.75,
3110
+ "learning_rate": 4.283417547083142e-06,
3111
+ "loss": 0.3889,
3112
+ "step": 373
3113
+ },
3114
+ {
3115
+ "epoch": 41.55555555555556,
3116
+ "grad_norm": 399109.46875,
3117
+ "learning_rate": 4.294901240238861e-06,
3118
+ "loss": 0.3798,
3119
+ "step": 374
3120
+ },
3121
+ {
3122
+ "epoch": 41.666666666666664,
3123
+ "grad_norm": 370690.375,
3124
+ "learning_rate": 4.3063849333945796e-06,
3125
+ "loss": 0.3775,
3126
+ "step": 375
3127
+ },
3128
+ {
3129
+ "epoch": 41.77777777777778,
3130
+ "grad_norm": 660407.1875,
3131
+ "learning_rate": 4.317868626550299e-06,
3132
+ "loss": 0.3832,
3133
+ "step": 376
3134
+ },
3135
+ {
3136
+ "epoch": 41.888888888888886,
3137
+ "grad_norm": 1159956.5,
3138
+ "learning_rate": 4.329352319706018e-06,
3139
+ "loss": 0.3639,
3140
+ "step": 377
3141
+ },
3142
+ {
3143
+ "epoch": 42.0,
3144
+ "grad_norm": 606383.1875,
3145
+ "learning_rate": 4.340836012861736e-06,
3146
+ "loss": 0.3738,
3147
+ "step": 378
3148
+ },
3149
+ {
3150
+ "epoch": 42.0,
3151
+ "eval_accuracy": 0.8231511254019293,
3152
+ "eval_f1": 0.8135593220338984,
3153
+ "eval_loss": 0.39093542098999023,
3154
+ "eval_precision": 0.8191126279863481,
3155
+ "eval_recall": 0.8080808080808081,
3156
+ "eval_runtime": 5.2157,
3157
+ "eval_samples_per_second": 834.794,
3158
+ "eval_steps_per_second": 0.575,
3159
+ "step": 378
3160
+ },
3161
+ {
3162
+ "epoch": 42.111111111111114,
3163
+ "grad_norm": 248742.28125,
3164
+ "learning_rate": 4.352319706017455e-06,
3165
+ "loss": 0.3937,
3166
+ "step": 379
3167
+ },
3168
+ {
3169
+ "epoch": 42.22222222222222,
3170
+ "grad_norm": 585262.625,
3171
+ "learning_rate": 4.363803399173174e-06,
3172
+ "loss": 0.3623,
3173
+ "step": 380
3174
+ },
3175
+ {
3176
+ "epoch": 42.333333333333336,
3177
+ "grad_norm": 200463.296875,
3178
+ "learning_rate": 4.375287092328893e-06,
3179
+ "loss": 0.3749,
3180
+ "step": 381
3181
+ },
3182
+ {
3183
+ "epoch": 42.44444444444444,
3184
+ "grad_norm": 160448.734375,
3185
+ "learning_rate": 4.386770785484612e-06,
3186
+ "loss": 0.3893,
3187
+ "step": 382
3188
+ },
3189
+ {
3190
+ "epoch": 42.55555555555556,
3191
+ "grad_norm": 348410.375,
3192
+ "learning_rate": 4.398254478640331e-06,
3193
+ "loss": 0.3899,
3194
+ "step": 383
3195
+ },
3196
+ {
3197
+ "epoch": 42.666666666666664,
3198
+ "grad_norm": 115621.484375,
3199
+ "learning_rate": 4.409738171796049e-06,
3200
+ "loss": 0.3933,
3201
+ "step": 384
3202
+ },
3203
+ {
3204
+ "epoch": 42.77777777777778,
3205
+ "grad_norm": 431595.0,
3206
+ "learning_rate": 4.421221864951768e-06,
3207
+ "loss": 0.3821,
3208
+ "step": 385
3209
+ },
3210
+ {
3211
+ "epoch": 42.888888888888886,
3212
+ "grad_norm": 101460.4375,
3213
+ "learning_rate": 4.432705558107488e-06,
3214
+ "loss": 0.3743,
3215
+ "step": 386
3216
+ },
3217
+ {
3218
+ "epoch": 43.0,
3219
+ "grad_norm": 563180.0625,
3220
+ "learning_rate": 4.444189251263206e-06,
3221
+ "loss": 0.3924,
3222
+ "step": 387
3223
+ },
3224
+ {
3225
+ "epoch": 43.0,
3226
+ "eval_accuracy": 0.8252181901699587,
3227
+ "eval_f1": 0.8221547090441692,
3228
+ "eval_loss": 0.39497968554496765,
3229
+ "eval_precision": 0.7995454545454546,
3230
+ "eval_recall": 0.8460798460798461,
3231
+ "eval_runtime": 5.2643,
3232
+ "eval_samples_per_second": 827.083,
3233
+ "eval_steps_per_second": 0.57,
3234
+ "step": 387
3235
+ },
3236
+ {
3237
+ "epoch": 43.111111111111114,
3238
+ "grad_norm": 456643.25,
3239
+ "learning_rate": 4.455672944418925e-06,
3240
+ "loss": 0.371,
3241
+ "step": 388
3242
+ },
3243
+ {
3244
+ "epoch": 43.22222222222222,
3245
+ "grad_norm": 873773.8125,
3246
+ "learning_rate": 4.4671566375746444e-06,
3247
+ "loss": 0.3962,
3248
+ "step": 389
3249
+ },
3250
+ {
3251
+ "epoch": 43.333333333333336,
3252
+ "grad_norm": 112325.046875,
3253
+ "learning_rate": 4.478640330730363e-06,
3254
+ "loss": 0.3756,
3255
+ "step": 390
3256
+ },
3257
+ {
3258
+ "epoch": 43.44444444444444,
3259
+ "grad_norm": 367788.90625,
3260
+ "learning_rate": 4.490124023886081e-06,
3261
+ "loss": 0.3788,
3262
+ "step": 391
3263
+ },
3264
+ {
3265
+ "epoch": 43.55555555555556,
3266
+ "grad_norm": 390394.09375,
3267
+ "learning_rate": 4.5016077170418e-06,
3268
+ "loss": 0.3812,
3269
+ "step": 392
3270
+ },
3271
+ {
3272
+ "epoch": 43.666666666666664,
3273
+ "grad_norm": 325314.1875,
3274
+ "learning_rate": 4.51309141019752e-06,
3275
+ "loss": 0.3731,
3276
+ "step": 393
3277
+ },
3278
+ {
3279
+ "epoch": 43.77777777777778,
3280
+ "grad_norm": 156517.75,
3281
+ "learning_rate": 4.524575103353239e-06,
3282
+ "loss": 0.377,
3283
+ "step": 394
3284
+ },
3285
+ {
3286
+ "epoch": 43.888888888888886,
3287
+ "grad_norm": 443482.53125,
3288
+ "learning_rate": 4.536058796508958e-06,
3289
+ "loss": 0.3858,
3290
+ "step": 395
3291
+ },
3292
+ {
3293
+ "epoch": 44.0,
3294
+ "grad_norm": 853189.375,
3295
+ "learning_rate": 4.547542489664676e-06,
3296
+ "loss": 0.3817,
3297
+ "step": 396
3298
+ },
3299
+ {
3300
+ "epoch": 44.0,
3301
+ "eval_accuracy": 0.8270555810748736,
3302
+ "eval_f1": 0.8231148696264975,
3303
+ "eval_loss": 0.393361896276474,
3304
+ "eval_precision": 0.8044077134986226,
3305
+ "eval_recall": 0.8427128427128427,
3306
+ "eval_runtime": 5.3198,
3307
+ "eval_samples_per_second": 818.447,
3308
+ "eval_steps_per_second": 0.564,
3309
+ "step": 396
3310
+ },
3311
+ {
3312
+ "epoch": 44.111111111111114,
3313
+ "grad_norm": 568736.6875,
3314
+ "learning_rate": 4.559026182820395e-06,
3315
+ "loss": 0.3612,
3316
+ "step": 397
3317
+ },
3318
+ {
3319
+ "epoch": 44.22222222222222,
3320
+ "grad_norm": 603129.125,
3321
+ "learning_rate": 4.570509875976114e-06,
3322
+ "loss": 0.3805,
3323
+ "step": 398
3324
+ },
3325
+ {
3326
+ "epoch": 44.333333333333336,
3327
+ "grad_norm": 218879.5625,
3328
+ "learning_rate": 4.581993569131833e-06,
3329
+ "loss": 0.3866,
3330
+ "step": 399
3331
+ },
3332
+ {
3333
+ "epoch": 44.44444444444444,
3334
+ "grad_norm": 751706.625,
3335
+ "learning_rate": 4.593477262287552e-06,
3336
+ "loss": 0.3912,
3337
+ "step": 400
3338
+ },
3339
+ {
3340
+ "epoch": 44.55555555555556,
3341
+ "grad_norm": 474342.125,
3342
+ "learning_rate": 4.604960955443271e-06,
3343
+ "loss": 0.3774,
3344
+ "step": 401
3345
+ },
3346
+ {
3347
+ "epoch": 44.666666666666664,
3348
+ "grad_norm": 237391.578125,
3349
+ "learning_rate": 4.616444648598989e-06,
3350
+ "loss": 0.3791,
3351
+ "step": 402
3352
+ },
3353
+ {
3354
+ "epoch": 44.77777777777778,
3355
+ "grad_norm": 143708.234375,
3356
+ "learning_rate": 4.6279283417547085e-06,
3357
+ "loss": 0.3844,
3358
+ "step": 403
3359
+ },
3360
+ {
3361
+ "epoch": 44.888888888888886,
3362
+ "grad_norm": 788803.3125,
3363
+ "learning_rate": 4.639412034910427e-06,
3364
+ "loss": 0.3885,
3365
+ "step": 404
3366
+ },
3367
+ {
3368
+ "epoch": 45.0,
3369
+ "grad_norm": 1540259.125,
3370
+ "learning_rate": 4.650895728066146e-06,
3371
+ "loss": 0.415,
3372
+ "step": 405
3373
+ },
3374
+ {
3375
+ "epoch": 45.0,
3376
+ "eval_accuracy": 0.8252181901699587,
3377
+ "eval_f1": 0.8227346843699045,
3378
+ "eval_loss": 0.3959347903728485,
3379
+ "eval_precision": 0.7976513098464318,
3380
+ "eval_recall": 0.8494468494468495,
3381
+ "eval_runtime": 5.3462,
3382
+ "eval_samples_per_second": 814.415,
3383
+ "eval_steps_per_second": 0.561,
3384
+ "step": 405
3385
+ },
3386
+ {
3387
+ "epoch": 45.111111111111114,
3388
+ "grad_norm": 552211.75,
3389
+ "learning_rate": 4.662379421221865e-06,
3390
+ "loss": 0.3864,
3391
+ "step": 406
3392
+ },
3393
+ {
3394
+ "epoch": 45.22222222222222,
3395
+ "grad_norm": 177492.828125,
3396
+ "learning_rate": 4.6738631143775845e-06,
3397
+ "loss": 0.3604,
3398
+ "step": 407
3399
+ },
3400
+ {
3401
+ "epoch": 45.333333333333336,
3402
+ "grad_norm": 196209.4375,
3403
+ "learning_rate": 4.685346807533302e-06,
3404
+ "loss": 0.3826,
3405
+ "step": 408
3406
+ },
3407
+ {
3408
+ "epoch": 45.44444444444444,
3409
+ "grad_norm": 857919.75,
3410
+ "learning_rate": 4.696830500689021e-06,
3411
+ "loss": 0.3903,
3412
+ "step": 409
3413
+ },
3414
+ {
3415
+ "epoch": 45.55555555555556,
3416
+ "grad_norm": 1154738.25,
3417
+ "learning_rate": 4.7083141938447405e-06,
3418
+ "loss": 0.3909,
3419
+ "step": 410
3420
+ },
3421
+ {
3422
+ "epoch": 45.666666666666664,
3423
+ "grad_norm": 1139759.75,
3424
+ "learning_rate": 4.71979788700046e-06,
3425
+ "loss": 0.3787,
3426
+ "step": 411
3427
+ },
3428
+ {
3429
+ "epoch": 45.77777777777778,
3430
+ "grad_norm": 564532.8125,
3431
+ "learning_rate": 4.731281580156178e-06,
3432
+ "loss": 0.3599,
3433
+ "step": 412
3434
+ },
3435
+ {
3436
+ "epoch": 45.888888888888886,
3437
+ "grad_norm": 143203.859375,
3438
+ "learning_rate": 4.742765273311897e-06,
3439
+ "loss": 0.3973,
3440
+ "step": 413
3441
+ },
3442
+ {
3443
+ "epoch": 46.0,
3444
+ "grad_norm": 554491.5625,
3445
+ "learning_rate": 4.7542489664676165e-06,
3446
+ "loss": 0.3882,
3447
+ "step": 414
3448
+ },
3449
+ {
3450
+ "epoch": 46.0,
3451
+ "eval_accuracy": 0.8286632981166743,
3452
+ "eval_f1": 0.8273947246645071,
3453
+ "eval_loss": 0.3958016335964203,
3454
+ "eval_precision": 0.797146678555506,
3455
+ "eval_recall": 0.86002886002886,
3456
+ "eval_runtime": 5.3654,
3457
+ "eval_samples_per_second": 811.493,
3458
+ "eval_steps_per_second": 0.559,
3459
+ "step": 414
3460
+ }
3461
+ ],
3462
+ "logging_steps": 1,
3463
+ "max_steps": 450,
3464
+ "num_input_tokens_seen": 0,
3465
+ "num_train_epochs": 50,
3466
+ "save_steps": 500,
3467
+ "stateful_callbacks": {
3468
+ "TrainerControl": {
3469
+ "args": {
3470
+ "should_epoch_stop": false,
3471
+ "should_evaluate": false,
3472
+ "should_log": false,
3473
+ "should_save": true,
3474
+ "should_training_stop": false
3475
+ },
3476
+ "attributes": {}
3477
+ }
3478
+ },
3479
+ "total_flos": 3.1583883938955264e+16,
3480
+ "train_batch_size": 2048,
3481
+ "trial_name": null,
3482
+ "trial_params": null
3483
+ }
checkpoint-414/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:efb0fa4515340c52f02e80c6b7178ae61ffec5d2b093f61094126b6d6d022829
3
+ size 5368
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e93cd22a08f1a336b184d558e7b03b78b55971c285b7447a591b30640cb89618
3
  size 8563512
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e8c28a6bfc84261310d472d8c3e4c3f619e2c02b37dc643c7451efe5896b9d54
3
  size 8563512
pr_curve.png ADDED
roc_curve.png ADDED
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:84dd02cddcded42bf354e8633385d35d0e79606bbb5580f4503cf06d25f922ea
3
  size 5368
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:efb0fa4515340c52f02e80c6b7178ae61ffec5d2b093f61094126b6d6d022829
3
  size 5368