Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

config.json +72 -0
generation_config.json +7 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +228 -0
trainer_state.json +763 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,72 @@

+{
+  "_name_or_path": "deepseek-ai/deepseek-coder-1.3b-base",
+  "architectures": [
+    "DetikzifyForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 32013,
+  "concat_patches": 2,
+  "eos_token_id": 32014,
+  "feature_layer": 26,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 5504,
+  "max_position_embeddings": 16384,
+  "mlp_bias": false,
+  "mm_hidden_size": 2304,
+  "model_type": "detikzify",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 16,
+  "num_patches": 364,
+  "patch_token_id": 32013,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "factor": 4.0,
+    "rope_type": "linear",
+    "type": "linear"
+  },
+  "rope_theta": 100000,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.46.2",
+  "use_cache": false,
+  "use_mm_proj": true,
+  "vision_config": {
+    "architecture": "vit_so400m_patch14_siglip_384",
+    "classifier": "head",
+    "crop_mode": "center",
+    "crop_pct": 0.9,
+    "custom_load": false,
+    "first_conv": "patch_embed.proj",
+    "fixed_input_size": true,
+    "hf_hub_filename": "open_clip_pytorch_model.bin",
+    "hf_hub_id": "timm/ViT-SO400M-14-SigLIP-384",
+    "input_size": [
+      3,
+      384,
+      384
+    ],
+    "interpolation": "bicubic",
+    "mean": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "num_classes": 0,
+    "pool_size": null,
+    "std": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "tag": "webli",
+    "url": ""
+  },
+  "vision_tower": "vit_so400m_patch14_siglip_384.webli",
+  "vocab_size": 32256
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 32013,
+  "eos_token_id": 32014,
+  "pad_token_id": 32018,
+  "transformers_version": "4.46.2"
+}

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5cf2692594b44f2282a189265999ea42f51be94f21c4bebdc838fe2f55218716
+size 4986380064

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2bf14a1981be67fbd1a5432f76aaccf8411a424307c127b40fd2434b599110b3
+size 418415560

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,228 @@

+{
+  "metadata": {
+    "total_size": 5404770304
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.mm_projector.bias": "model-00002-of-00002.safetensors",
+    "model.mm_projector.weight": "model-00002-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,763 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.995306228883699,
+  "eval_steps": 500,
+  "global_step": 1032,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.029024285163601733,
+      "grad_norm": 88.48429870605469,
+      "learning_rate": 9.677419354838708e-05,
+      "loss": 0.7958,
+      "step": 10
+    },
+    {
+      "epoch": 0.058048570327203466,
+      "grad_norm": 78.84452056884766,
+      "learning_rate": 0.00019354838709677416,
+      "loss": 0.7504,
+      "step": 20
+    },
+    {
+      "epoch": 0.08707285549080519,
+      "grad_norm": 213.83749389648438,
+      "learning_rate": 0.00029032258064516127,
+      "loss": 0.7391,
+      "step": 30
+    },
+    {
+      "epoch": 0.11609714065440693,
+      "grad_norm": 64.08855438232422,
+      "learning_rate": 0.00029994016586766087,
+      "loss": 0.7567,
+      "step": 40
+    },
+    {
+      "epoch": 0.14512142581800866,
+      "grad_norm": 71.85431671142578,
+      "learning_rate": 0.00029973339311370587,
+      "loss": 0.7117,
+      "step": 50
+    },
+    {
+      "epoch": 0.17414571098161039,
+      "grad_norm": 66.32382202148438,
+      "learning_rate": 0.00029937914664890375,
+      "loss": 0.6959,
+      "step": 60
+    },
+    {
+      "epoch": 0.20316999614521214,
+      "grad_norm": 52.99678039550781,
+      "learning_rate": 0.00029887777537365414,
+      "loss": 0.6835,
+      "step": 70
+    },
+    {
+      "epoch": 0.23219428130881387,
+      "grad_norm": 53.15193557739258,
+      "learning_rate": 0.0002982297730928522,
+      "loss": 0.6855,
+      "step": 80
+    },
+    {
+      "epoch": 0.2612185664724156,
+      "grad_norm": 62.969337463378906,
+      "learning_rate": 0.00029743577802953563,
+      "loss": 0.6758,
+      "step": 90
+    },
+    {
+      "epoch": 0.2902428516360173,
+      "grad_norm": 47.597293853759766,
+      "learning_rate": 0.00029649657219629316,
+      "loss": 0.665,
+      "step": 100
+    },
+    {
+      "epoch": 0.31926713679961904,
+      "grad_norm": 50.93095397949219,
+      "learning_rate": 0.00029541308062505385,
+      "loss": 0.6689,
+      "step": 110
+    },
+    {
+      "epoch": 0.34829142196322077,
+      "grad_norm": 44.195335388183594,
+      "learning_rate": 0.00029418637045601514,
+      "loss": 0.6553,
+      "step": 120
+    },
+    {
+      "epoch": 0.3773157071268225,
+      "grad_norm": 46.52369689941406,
+      "learning_rate": 0.00029281764988660705,
+      "loss": 0.6584,
+      "step": 130
+    },
+    {
+      "epoch": 0.4063399922904243,
+      "grad_norm": 51.798343658447266,
+      "learning_rate": 0.0002913082669815285,
+      "loss": 0.6514,
+      "step": 140
+    },
+    {
+      "epoch": 0.435364277454026,
+      "grad_norm": 53.8443489074707,
+      "learning_rate": 0.0002896597083450262,
+      "loss": 0.6276,
+      "step": 150
+    },
+    {
+      "epoch": 0.46438856261762773,
+      "grad_norm": 44.94770812988281,
+      "learning_rate": 0.0002878735976567259,
+      "loss": 0.6428,
+      "step": 160
+    },
+    {
+      "epoch": 0.49341284778122946,
+      "grad_norm": 38.52789306640625,
+      "learning_rate": 0.0002859516940724558,
+      "loss": 0.6415,
+      "step": 170
+    },
+    {
+      "epoch": 0.5224371329448312,
+      "grad_norm": 52.5710563659668,
+      "learning_rate": 0.0002838958904916392,
+      "loss": 0.6302,
+      "step": 180
+    },
+    {
+      "epoch": 0.551461418108433,
+      "grad_norm": 46.27107238769531,
+      "learning_rate": 0.00028170821169296126,
+      "loss": 0.6246,
+      "step": 190
+    },
+    {
+      "epoch": 0.5804857032720346,
+      "grad_norm": 42.310123443603516,
+      "learning_rate": 0.00027939081234014705,
+      "loss": 0.627,
+      "step": 200
+    },
+    {
+      "epoch": 0.6095099884356364,
+      "grad_norm": 48.09523391723633,
+      "learning_rate": 0.0002769459748598149,
+      "loss": 0.623,
+      "step": 210
+    },
+    {
+      "epoch": 0.6385342735992381,
+      "grad_norm": 62.250152587890625,
+      "learning_rate": 0.0002743761071934942,
+      "loss": 0.6312,
+      "step": 220
+    },
+    {
+      "epoch": 0.6675585587628399,
+      "grad_norm": 42.713130950927734,
+      "learning_rate": 0.00027168374042602366,
+      "loss": 0.6101,
+      "step": 230
+    },
+    {
+      "epoch": 0.6965828439264415,
+      "grad_norm": 49.83562469482422,
+      "learning_rate": 0.00026887152629266354,
+      "loss": 0.6,
+      "step": 240
+    },
+    {
+      "epoch": 0.7256071290900433,
+      "grad_norm": 39.01671600341797,
+      "learning_rate": 0.0002659422345673789,
+      "loss": 0.6038,
+      "step": 250
+    },
+    {
+      "epoch": 0.754631414253645,
+      "grad_norm": 35.13432693481445,
+      "learning_rate": 0.0002628987503348651,
+      "loss": 0.5956,
+      "step": 260
+    },
+    {
+      "epoch": 0.7836556994172468,
+      "grad_norm": 41.503684997558594,
+      "learning_rate": 0.00025974407114900353,
+      "loss": 0.6134,
+      "step": 270
+    },
+    {
+      "epoch": 0.8126799845808486,
+      "grad_norm": 39.328548431396484,
+      "learning_rate": 0.0002564813040805443,
+      "loss": 0.59,
+      "step": 280
+    },
+    {
+      "epoch": 0.8417042697444502,
+      "grad_norm": 34.63987731933594,
+      "learning_rate": 0.0002531136626569259,
+      "loss": 0.5834,
+      "step": 290
+    },
+    {
+      "epoch": 0.870728554908052,
+      "grad_norm": 37.82402801513672,
+      "learning_rate": 0.0002496444636972439,
+      "loss": 0.6023,
+      "step": 300
+    },
+    {
+      "epoch": 0.8997528400716537,
+      "grad_norm": 38.01532745361328,
+      "learning_rate": 0.0002460771240454877,
+      "loss": 0.5866,
+      "step": 310
+    },
+    {
+      "epoch": 0.9287771252352555,
+      "grad_norm": 37.758487701416016,
+      "learning_rate": 0.00024241515720526083,
+      "loss": 0.6001,
+      "step": 320
+    },
+    {
+      "epoch": 0.9578014103988571,
+      "grad_norm": 34.032989501953125,
+      "learning_rate": 0.0002386621698793015,
+      "loss": 0.5833,
+      "step": 330
+    },
+    {
+      "epoch": 0.9868256955624589,
+      "grad_norm": 41.784881591796875,
+      "learning_rate": 0.0002348218584172095,
+      "loss": 0.5876,
+      "step": 340
+    },
+    {
+      "epoch": 1.0158499807260606,
+      "grad_norm": 35.09678268432617,
+      "learning_rate": 0.00023089800517487986,
+      "loss": 0.5319,
+      "step": 350
+    },
+    {
+      "epoch": 1.0448742658896624,
+      "grad_norm": 32.305877685546875,
+      "learning_rate": 0.00022689447478922784,
+      "loss": 0.4666,
+      "step": 360
+    },
+    {
+      "epoch": 1.0738985510532641,
+      "grad_norm": 35.80933380126953,
+      "learning_rate": 0.0002228152103718745,
+      "loss": 0.4619,
+      "step": 370
+    },
+    {
+      "epoch": 1.102922836216866,
+      "grad_norm": 32.89548873901367,
+      "learning_rate": 0.00021866422962554238,
+      "loss": 0.4739,
+      "step": 380
+    },
+    {
+      "epoch": 1.1319471213804675,
+      "grad_norm": 36.34146499633789,
+      "learning_rate": 0.0002144456208869851,
+      "loss": 0.4676,
+      "step": 390
+    },
+    {
+      "epoch": 1.1609714065440693,
+      "grad_norm": 42.522438049316406,
+      "learning_rate": 0.00021016353910034938,
+      "loss": 0.4765,
+      "step": 400
+    },
+    {
+      "epoch": 1.189995691707671,
+      "grad_norm": 34.677650451660156,
+      "learning_rate": 0.00020582220172493467,
+      "loss": 0.4715,
+      "step": 410
+    },
+    {
+      "epoch": 1.2190199768712728,
+      "grad_norm": 33.74694061279297,
+      "learning_rate": 0.0002014258845813811,
+      "loss": 0.4655,
+      "step": 420
+    },
+    {
+      "epoch": 1.2480442620348744,
+      "grad_norm": 30.60100555419922,
+      "learning_rate": 0.00019697891764037685,
+      "loss": 0.461,
+      "step": 430
+    },
+    {
+      "epoch": 1.2770685471984762,
+      "grad_norm": 38.6037483215332,
+      "learning_rate": 0.00019248568075803257,
+      "loss": 0.4719,
+      "step": 440
+    },
+    {
+      "epoch": 1.306092832362078,
+      "grad_norm": 32.19020080566406,
+      "learning_rate": 0.00018795059936212348,
+      "loss": 0.4586,
+      "step": 450
+    },
+    {
+      "epoch": 1.3351171175256797,
+      "grad_norm": 32.962276458740234,
+      "learning_rate": 0.00018337814009344714,
+      "loss": 0.4697,
+      "step": 460
+    },
+    {
+      "epoch": 1.3641414026892815,
+      "grad_norm": 29.69386863708496,
+      "learning_rate": 0.00017877280640659068,
+      "loss": 0.4639,
+      "step": 470
+    },
+    {
+      "epoch": 1.393165687852883,
+      "grad_norm": 31.52634620666504,
+      "learning_rate": 0.00017413913413443915,
+      "loss": 0.4579,
+      "step": 480
+    },
+    {
+      "epoch": 1.4221899730164849,
+      "grad_norm": 35.30017852783203,
+      "learning_rate": 0.0001694816870207949,
+      "loss": 0.4684,
+      "step": 490
+    },
+    {
+      "epoch": 1.4512142581800866,
+      "grad_norm": 33.88492202758789,
+      "learning_rate": 0.00016480505222550682,
+      "loss": 0.4534,
+      "step": 500
+    },
+    {
+      "epoch": 1.4802385433436884,
+      "grad_norm": 30.00653076171875,
+      "learning_rate": 0.00016011383580653697,
+      "loss": 0.464,
+      "step": 510
+    },
+    {
+      "epoch": 1.50926282850729,
+      "grad_norm": 33.75349807739258,
+      "learning_rate": 0.00015541265818341433,
+      "loss": 0.4497,
+      "step": 520
+    },
+    {
+      "epoch": 1.5382871136708918,
+      "grad_norm": 31.689538955688477,
+      "learning_rate": 0.00015070614958654393,
+      "loss": 0.4412,
+      "step": 530
+    },
+    {
+      "epoch": 1.5673113988344936,
+      "grad_norm": 28.848291397094727,
+      "learning_rate": 0.00014599894549685273,
+      "loss": 0.4467,
+      "step": 540
+    },
+    {
+      "epoch": 1.5963356839980953,
+      "grad_norm": 27.079084396362305,
+      "learning_rate": 0.0001412956820802647,
+      "loss": 0.4428,
+      "step": 550
+    },
+    {
+      "epoch": 1.6253599691616971,
+      "grad_norm": 29.99922752380371,
+      "learning_rate": 0.0001366009916215007,
+      "loss": 0.4374,
+      "step": 560
+    },
+    {
+      "epoch": 1.654384254325299,
+      "grad_norm": 28.763559341430664,
+      "learning_rate": 0.00013191949796170156,
+      "loss": 0.4419,
+      "step": 570
+    },
+    {
+      "epoch": 1.6834085394889005,
+      "grad_norm": 30.430801391601562,
+      "learning_rate": 0.00012725581194436694,
+      "loss": 0.445,
+      "step": 580
+    },
+    {
+      "epoch": 1.7124328246525022,
+      "grad_norm": 28.43861198425293,
+      "learning_rate": 0.00012261452687409576,
+      "loss": 0.4452,
+      "step": 590
+    },
+    {
+      "epoch": 1.7414571098161038,
+      "grad_norm": 33.317378997802734,
+      "learning_rate": 0.00011800021399260094,
+      "loss": 0.4378,
+      "step": 600
+    },
+    {
+      "epoch": 1.7704813949797056,
+      "grad_norm": 27.84680938720703,
+      "learning_rate": 0.00011341741797645384,
+      "loss": 0.4375,
+      "step": 610
+    },
+    {
+      "epoch": 1.7995056801433074,
+      "grad_norm": 32.20744705200195,
+      "learning_rate": 0.0001088706524609933,
+      "loss": 0.4281,
+      "step": 620
+    },
+    {
+      "epoch": 1.8285299653069091,
+      "grad_norm": 29.68756675720215,
+      "learning_rate": 0.00010436439559480705,
+      "loss": 0.4338,
+      "step": 630
+    },
+    {
+      "epoch": 1.857554250470511,
+      "grad_norm": 31.973575592041016,
+      "learning_rate": 9.990308562916479e-05,
+      "loss": 0.4265,
+      "step": 640
+    },
+    {
+      "epoch": 1.8865785356341127,
+      "grad_norm": 26.948545455932617,
+      "learning_rate": 9.549111654674586e-05,
+      "loss": 0.4165,
+      "step": 650
+    },
+    {
+      "epoch": 1.9156028207977145,
+      "grad_norm": 27.91978645324707,
+      "learning_rate": 9.11328337339681e-05,
+      "loss": 0.416,
+      "step": 660
+    },
+    {
+      "epoch": 1.944627105961316,
+      "grad_norm": 34.58734130859375,
+      "learning_rate": 8.68325297011791e-05,
+      "loss": 0.4196,
+      "step": 670
+    },
+    {
+      "epoch": 1.9736513911249178,
+      "grad_norm": 24.959909439086914,
+      "learning_rate": 8.259443985492576e-05,
+      "loss": 0.4305,
+      "step": 680
+    },
+    {
+      "epoch": 2.0026756762885194,
+      "grad_norm": 39.029258728027344,
+      "learning_rate": 7.842273832646591e-05,
+      "loss": 0.4122,
+      "step": 690
+    },
+    {
+      "epoch": 2.031699961452121,
+      "grad_norm": 27.386505126953125,
+      "learning_rate": 7.432153386063034e-05,
+      "loss": 0.2751,
+      "step": 700
+    },
+    {
+      "epoch": 2.060724246615723,
+      "grad_norm": 30.209821701049805,
+      "learning_rate": 7.029486576908444e-05,
+      "loss": 0.2654,
+      "step": 710
+    },
+    {
+      "epoch": 2.0897485317793247,
+      "grad_norm": 31.79279327392578,
+      "learning_rate": 6.63466999519756e-05,
+      "loss": 0.2648,
+      "step": 720
+    },
+    {
+      "epoch": 2.1187728169429265,
+      "grad_norm": 31.363250732421875,
+      "learning_rate": 6.248092499188372e-05,
+      "loss": 0.2587,
+      "step": 730
+    },
+    {
+      "epoch": 2.1477971021065283,
+      "grad_norm": 33.62345886230469,
+      "learning_rate": 5.870134832392269e-05,
+      "loss": 0.2564,
+      "step": 740
+    },
+    {
+      "epoch": 2.17682138727013,
+      "grad_norm": 31.332040786743164,
+      "learning_rate": 5.5011692485764734e-05,
+      "loss": 0.253,
+      "step": 750
+    },
+    {
+      "epoch": 2.205845672433732,
+      "grad_norm": 30.034757614135742,
+      "learning_rate": 5.141559145128093e-05,
+      "loss": 0.26,
+      "step": 760
+    },
+    {
+      "epoch": 2.234869957597333,
+      "grad_norm": 30.40983772277832,
+      "learning_rate": 4.791658705140897e-05,
+      "loss": 0.2507,
+      "step": 770
+    },
+    {
+      "epoch": 2.263894242760935,
+      "grad_norm": 27.134634017944336,
+      "learning_rate": 4.451812548577333e-05,
+      "loss": 0.2518,
+      "step": 780
+    },
+    {
+      "epoch": 2.2929185279245368,
+      "grad_norm": 27.9604434967041,
+      "learning_rate": 4.1223553928493564e-05,
+      "loss": 0.2494,
+      "step": 790
+    },
+    {
+      "epoch": 2.3219428130881385,
+      "grad_norm": 33.73405838012695,
+      "learning_rate": 3.803611723152345e-05,
+      "loss": 0.2441,
+      "step": 800
+    },
+    {
+      "epoch": 2.3509670982517403,
+      "grad_norm": 31.413331985473633,
+      "learning_rate": 3.495895472876854e-05,
+      "loss": 0.2479,
+      "step": 810
+    },
+    {
+      "epoch": 2.379991383415342,
+      "grad_norm": 28.82455062866211,
+      "learning_rate": 3.199509714412901e-05,
+      "loss": 0.2529,
+      "step": 820
+    },
+    {
+      "epoch": 2.409015668578944,
+      "grad_norm": 31.402931213378906,
+      "learning_rate": 2.9147463606513528e-05,
+      "loss": 0.2499,
+      "step": 830
+    },
+    {
+      "epoch": 2.4380399537425457,
+      "grad_norm": 25.637739181518555,
+      "learning_rate": 2.6418858774763992e-05,
+      "loss": 0.236,
+      "step": 840
+    },
+    {
+      "epoch": 2.467064238906147,
+      "grad_norm": 27.47572898864746,
+      "learning_rate": 2.38119700753228e-05,
+      "loss": 0.2432,
+      "step": 850
+    },
+    {
+      "epoch": 2.496088524069749,
+      "grad_norm": 28.527973175048828,
+      "learning_rate": 2.1329365055363595e-05,
+      "loss": 0.2428,
+      "step": 860
+    },
+    {
+      "epoch": 2.5251128092333506,
+      "grad_norm": 28.3017578125,
+      "learning_rate": 1.89734888539916e-05,
+      "loss": 0.2457,
+      "step": 870
+    },
+    {
+      "epoch": 2.5541370943969524,
+      "grad_norm": 27.692001342773438,
+      "learning_rate": 1.674666179400504e-05,
+      "loss": 0.2409,
+      "step": 880
+    },
+    {
+      "epoch": 2.583161379560554,
+      "grad_norm": 30.592241287231445,
+      "learning_rate": 1.4651077096589486e-05,
+      "loss": 0.2371,
+      "step": 890
+    },
+    {
+      "epoch": 2.612185664724156,
+      "grad_norm": 26.051584243774414,
+      "learning_rate": 1.2688798721195053e-05,
+      "loss": 0.2389,
+      "step": 900
+    },
+    {
+      "epoch": 2.6412099498877577,
+      "grad_norm": 28.38836097717285,
+      "learning_rate": 1.086175933272514e-05,
+      "loss": 0.2407,
+      "step": 910
+    },
+    {
+      "epoch": 2.6702342350513595,
+      "grad_norm": 27.81374740600586,
+      "learning_rate": 9.171758398038015e-06,
+      "loss": 0.2389,
+      "step": 920
+    },
+    {
+      "epoch": 2.6992585202149613,
+      "grad_norm": 27.540956497192383,
+      "learning_rate": 7.620460413636342e-06,
+      "loss": 0.2453,
+      "step": 930
+    },
+    {
+      "epoch": 2.728282805378563,
+      "grad_norm": 27.374300003051758,
+      "learning_rate": 6.209393266290291e-06,
+      "loss": 0.234,
+      "step": 940
+    },
+    {
+      "epoch": 2.757307090542165,
+      "grad_norm": 29.071474075317383,
+      "learning_rate": 4.939946728208627e-06,
+      "loss": 0.2406,
+      "step": 950
+    },
+    {
+      "epoch": 2.786331375705766,
+      "grad_norm": 25.93909454345703,
+      "learning_rate": 3.813371088240086e-06,
+      "loss": 0.231,
+      "step": 960
+    },
+    {
+      "epoch": 2.815355660869368,
+      "grad_norm": 28.83918571472168,
+      "learning_rate": 2.830775920453093e-06,
+      "loss": 0.2303,
+      "step": 970
+    },
+    {
+      "epoch": 2.8443799460329697,
+      "grad_norm": 28.06920623779297,
+      "learning_rate": 1.9931289913066694e-06,
+      "loss": 0.2339,
+      "step": 980
+    },
+    {
+      "epoch": 2.8734042311965715,
+      "grad_norm": 28.357439041137695,
+      "learning_rate": 1.3012553064889631e-06,
+      "loss": 0.2325,
+      "step": 990
+    },
+    {
+      "epoch": 2.9024285163601733,
+      "grad_norm": 25.29115104675293,
+      "learning_rate": 7.558362983619448e-07,
+      "loss": 0.2374,
+      "step": 1000
+    },
+    {
+      "epoch": 2.931452801523775,
+      "grad_norm": 27.02465057373047,
+      "learning_rate": 3.57409154812871e-07,
+      "loss": 0.2307,
+      "step": 1010
+    },
+    {
+      "epoch": 2.960477086687377,
+      "grad_norm": 26.2918701171875,
+      "learning_rate": 1.0636629017320431e-07,
+      "loss": 0.232,
+      "step": 1020
+    },
+    {
+      "epoch": 2.989501371850978,
+      "grad_norm": 28.43804359436035,
+      "learning_rate": 2.9549587264754428e-09,
+      "loss": 0.2287,
+      "step": 1030
+    },
+    {
+      "epoch": 2.995306228883699,
+      "step": 1032,
+      "total_flos": 1.0711204212442399e+18,
+      "train_loss": 0.44727156865735385,
+      "train_runtime": 21178.1386,
+      "train_samples_per_second": 6.247,
+      "train_steps_per_second": 0.049
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1032,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.0711204212442399e+18,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:804f05ea97d2034be9157aa51cb3e47c7cee4f13f448df7f3d75429daf246732
+size 5304