Upload Bilma

Browse files

Files changed (4) hide show

README.md +1 -1
config.json +4 -2
modeling_bilma.py +13 -13
tf_model.h5 +2 -2

README.md CHANGED Viewed

@@ -11,7 +11,7 @@ probably proofread and complete it, then remove this comment. -->
 # bilma
-This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:

 # bilma
+This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:

config.json CHANGED Viewed

@@ -1,14 +1,16 @@
 {
   "architectures": [
-    "TFAutoModel"
   ],
   "auto_map": {
     "AutoConfig": "configuration_bilma.BilmaConfig",
-    "TFAutoModel": "modeling_bilma.Bilma"
   },
   "drop_rate": 0.1,
   "embedding_dim": 512,
   "model_type": "bilma",
   "num_attention_heads": 4,
   "num_encoders": 2,
   "seq_max_length": 280,

 {
+  "_name_or_path": "w",
   "architectures": [
+    "lma"
   ],
   "auto_map": {
     "AutoConfig": "configuration_bilma.BilmaConfig",
+    "TFAutoModelForMaskedLM": "modeling_bilma.Bilma"
   },
   "drop_rate": 0.1,
   "embedding_dim": 512,
   "model_type": "bilma",
+  "name": "xxx",
   "num_attention_heads": 4,
   "num_encoders": 2,
   "seq_max_length": 280,

modeling_bilma.py CHANGED Viewed

@@ -9,7 +9,7 @@ from typing import Dict
 import re
 import unicodedata
-from .configuration_bilma import BilmaConfig
 # copied from preprocessing.py
 BLANK = ' '
@@ -33,6 +33,7 @@ SYMBOLS = set(";:,.@\\-\"/" + SYMBOLS_)
 class Bilma(TFPreTrainedModel):
     config_class = BilmaConfig
     main_input_name = "capt_input"
     def __init__(self, config):
         self.seq_max_length = config.seq_max_length
@@ -49,9 +50,7 @@ class Bilma(TFPreTrainedModel):
                            ff_dim=config.embedding_dim,
                            vocab_size=config.vocab_size,
                            rate=config.drop_rate)
-        #self.call(np.zeros((1, config.seq_max_length)))
     @property
     def dummy_inputs(self) -> Dict[str, tf.Tensor]:
@@ -83,8 +82,9 @@ class Bilma(TFPreTrainedModel):
 # -------------------------------
 class EncoderBlock(Layer):
-    def __init__(self, patch_dim, num_heads, ff_dim, rate=0.1, **kwargs):
         super(EncoderBlock, self).__init__(**kwargs)
         self.p_d = patch_dim
         self.n_h = num_heads
         self.f_d = ff_dim
@@ -94,8 +94,8 @@ class EncoderBlock(Layer):
         self.ffn = Sequential(
             #[Conv1D(ff_dim, kernel_size=1, activation=tf.nn.gelu),
             # Conv1D(patch_dim, kernel_size=1),]
-            [Dense(ff_dim, activation=tf.nn.gelu),
-             Dense(patch_dim),]
         )
         #self.layernorm0 = LayerNormalization(epsilon=1e-6)
         self.layernorm1 = LayerNormalization(epsilon=1e-6)
@@ -105,7 +105,7 @@ class EncoderBlock(Layer):
     def get_config(self):
         config = super(EncoderBlock, self).get_config()
-        config.update({"patch_dim":self.p_d, "num_heads":self.n_h, "ff_dim":self.f_d, "rate":self.rate})
         return config
     def call(self, inputs, training=False):
@@ -172,7 +172,7 @@ class Encoder(Layer):
         self.n_h = num_heads
         self.f_d = ff_dim
         self.rate = rate
-        self._layers = [EncoderBlock(embed_dim, num_heads, ff_dim, rate=0.1) for _ in range(n)]
         self.pe = positional_encoding(self.max_length, self.embed_dim)
     def get_config(self):
@@ -485,14 +485,14 @@ def accuracy_function(ignore_id=0):
 def bilma(num_enc=6, embed_dim=300, max_length=50, num_heads=6, ff_dim=512, vocab_size=9739, rate=0.1):
     capt_inputs_ids = Input(shape=(max_length, ), name='capt_input')
-    capt_embedding = Embedding(vocab_size, embed_dim, mask_zero=False)
     capt_inputs = capt_embedding(capt_inputs_ids)
-    enc = Encoder(num_enc, embed_dim, max_length, num_heads, ff_dim, rate=rate)
     enc_output = enc(capt_inputs)
-    fin_output = Dense(vocab_size, use_bias=True)(enc_output)
-    caption_model = Model(inputs=capt_inputs_ids, outputs=[fin_output])
     return caption_model
 def load(model_file):

 import re
 import unicodedata
+from configuration_bilma import BilmaConfig
 # copied from preprocessing.py
 BLANK = ' '
 class Bilma(TFPreTrainedModel):
     config_class = BilmaConfig
     main_input_name = "capt_input"
+    base_model_prefix = "bilma"
     def __init__(self, config):
         self.seq_max_length = config.seq_max_length
                            ff_dim=config.embedding_dim,
                            vocab_size=config.vocab_size,
                            rate=config.drop_rate)
     @property
     def dummy_inputs(self) -> Dict[str, tf.Tensor]:
 # -------------------------------
 class EncoderBlock(Layer):
+    def __init__(self, layer_num, patch_dim, num_heads, ff_dim, rate=0.1, **kwargs):
         super(EncoderBlock, self).__init__(**kwargs)
+        self.ln = layer_num
         self.p_d = patch_dim
         self.n_h = num_heads
         self.f_d = ff_dim
         self.ffn = Sequential(
             #[Conv1D(ff_dim, kernel_size=1, activation=tf.nn.gelu),
             # Conv1D(patch_dim, kernel_size=1),]
+            [Dense(ff_dim, activation=tf.nn.gelu, name=f"bilma/dense1_{layer_num}"),
+             Dense(patch_dim, name=f"bilma/dense2_{layer_num}")]
         )
         #self.layernorm0 = LayerNormalization(epsilon=1e-6)
         self.layernorm1 = LayerNormalization(epsilon=1e-6)
     def get_config(self):
         config = super(EncoderBlock, self).get_config()
+        config.update({"layer_num":self.ln, "patch_dim":self.p_d, "num_heads":self.n_h, "ff_dim":self.f_d, "rate":self.rate})
         return config
     def call(self, inputs, training=False):
         self.n_h = num_heads
         self.f_d = ff_dim
         self.rate = rate
+        self._layers = [EncoderBlock(i, embed_dim, num_heads, ff_dim, rate=0.1) for i in range(n)]
         self.pe = positional_encoding(self.max_length, self.embed_dim)
     def get_config(self):
 def bilma(num_enc=6, embed_dim=300, max_length=50, num_heads=6, ff_dim=512, vocab_size=9739, rate=0.1):
     capt_inputs_ids = Input(shape=(max_length, ), name='capt_input')
+    capt_embedding = Embedding(vocab_size, embed_dim, mask_zero=False, name="bilma/embedding")
     capt_inputs = capt_embedding(capt_inputs_ids)
+    enc = Encoder(num_enc, embed_dim, max_length, num_heads, ff_dim, rate=rate, name="bilma/encoder")
     enc_output = enc(capt_inputs)
+    fin_output = Dense(vocab_size, use_bias=True, name="bilma/dense_final")(enc_output)
+    caption_model = Model(inputs=capt_inputs_ids, outputs=[fin_output], name="bilma_model")
     return caption_model
 def load(model_file):

tf_model.h5 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f932984cd1b53af396b362f3b882736143583d47f4c86f356e7ae359b6bcba7c
-size 156561684

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8e658b722954addfd4fe9af9d4daaa2386fd98f7838d3c763bd6e7f03c1ed79
+size 156562964