Revealing My Secret Method: Added the highest delta SNR layers interleved within the model strategically from intuition on how it responds to it.

Browse files

Files changed (5) hide show

config.json +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +2 -2
model.safetensors.index.json +49 -1

config.json CHANGED Viewed

@@ -18,7 +18,7 @@
   "max_position_embeddings": 131072,
   "model_type": "phi3",
   "num_attention_heads": 32,
-  "num_hidden_layers": 56,
   "num_key_value_heads": 32,
   "original_max_position_embeddings": 4096,
   "pad_token_id": 32000,

   "max_position_embeddings": 131072,
   "model_type": "phi3",
   "num_attention_heads": 32,
+  "num_hidden_layers": 64,
   "num_key_value_heads": 32,
   "original_max_position_embeddings": 4096,
   "pad_token_id": 32000,

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5db4e2ccd1767b13093c7cb1991349069b5a7402c95677e670bc36fddd13020
 size 4972489200

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d6d5414ed5506ef306a4f0c9b4b52ef0109acc9c011ba8ba67b32caff6d2150
 size 4972489200

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f94eb540127bde035bf06bca85771d9f96286e2d58d74315a55a3a3e777c8b7f
 size 4983118840

 version https://git-lfs.github.com/spec/v1
+oid sha256:293031b0dee0e4fbcd1d77f108c68953165aac67ee1c9c3ee9179919e8d709b9
 size 4983118840

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c7cdc7d532555603488fd8fea7e326fef44b82b0d054c29bcfb56fec1d2d74a
-size 3122703288

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea70b50b85c30bb47b12b66f5c175b821e86d709b8422e382ab963f8d870e4cd
+size 4934746512

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 13078272000
   },
   "weight_map": {
     "lm_head.weight": "model-00003-of-00003.safetensors",
@@ -317,12 +317,60 @@
     "model.layers.55.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
     "model.layers.55.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
     "model.layers.55.self_attn.qkv_proj.weight": "model-00003-of-00003.safetensors",
     "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.6.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.6.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.6.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.7.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.7.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",

 {
   "metadata": {
+    "total_size": 14890309632
   },
   "weight_map": {
     "lm_head.weight": "model-00003-of-00003.safetensors",
     "model.layers.55.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
     "model.layers.55.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
     "model.layers.55.self_attn.qkv_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.56.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.56.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.56.mlp.gate_up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.56.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.56.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.56.self_attn.qkv_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.57.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.57.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.57.mlp.gate_up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.57.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.57.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.57.self_attn.qkv_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.58.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.58.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.58.mlp.gate_up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.58.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.58.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.58.self_attn.qkv_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.59.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.59.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.59.mlp.gate_up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.59.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.59.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.59.self_attn.qkv_proj.weight": "model-00003-of-00003.safetensors",
     "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.6.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.6.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.6.self_attn.qkv_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.60.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.60.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.60.mlp.gate_up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.60.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.60.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.60.self_attn.qkv_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.61.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.61.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.61.mlp.gate_up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.61.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.61.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.61.self_attn.qkv_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.62.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.62.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.62.mlp.gate_up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.62.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.62.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.62.self_attn.qkv_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.63.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.63.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.63.mlp.gate_up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.63.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.63.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.63.self_attn.qkv_proj.weight": "model-00003-of-00003.safetensors",
     "model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.7.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.7.mlp.gate_up_proj.weight": "model-00001-of-00003.safetensors",