Update spaCy pipeline

Files changed (8) hide show

.gitattributes CHANGED Viewed

@@ -43,3 +43,4 @@ parser/model filter=lfs diff=lfs merge=lfs -text
 textcat_classify/model filter=lfs diff=lfs merge=lfs -text
 tok2vec_small/model filter=lfs diff=lfs merge=lfs -text
 vocab/strings.json filter=lfs diff=lfs merge=lfs -text

 textcat_classify/model filter=lfs diff=lfs merge=lfs -text
 tok2vec_small/model filter=lfs diff=lfs merge=lfs -text
 vocab/strings.json filter=lfs diff=lfs merge=lfs -text
+senter/model filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -24,10 +24,10 @@ model-index:
 | Feature | Description |
 | --- | --- |
 | **Name** | `en_tako_query_analyzer` |
-| **Version** | `0.0.2` |
 | **spaCy** | `>=3.7.5,<3.8.0` |
-| **Default Pipeline** | `tok2vec_small`, `tagger`, `parser`, `attribute_ruler`, `tok2vec`, `ner`, `textcat_classify` |
-| **Components** | `tok2vec_small`, `tagger`, `parser`, `attribute_ruler`, `tok2vec`, `ner`, `textcat_classify` |
 | **Vectors** | 514157 keys, 514157 unique vectors (300 dimensions) |
 | **Sources** | n/a |
 | **License** | n/a |

 | Feature | Description |
 | --- | --- |
 | **Name** | `en_tako_query_analyzer` |
+| **Version** | `0.0.3` |
 | **spaCy** | `>=3.7.5,<3.8.0` |
+| **Default Pipeline** | `tok2vec_small`, `tagger`, `parser`, `attribute_ruler`, `senter`, `lemmatizer`, `tok2vec`, `ner`, `textcat_classify` |
+| **Components** | `tok2vec_small`, `tagger`, `parser`, `attribute_ruler`, `senter`, `lemmatizer`, `tok2vec`, `ner`, `textcat_classify` |
 | **Vectors** | 514157 keys, 514157 unique vectors (300 dimensions) |
 | **Sources** | n/a |
 | **License** | n/a |

config.cfg CHANGED Viewed

@@ -15,7 +15,7 @@ seed = 0
 [nlp]
 lang = "en"
-pipeline = ["tok2vec_small","tagger","parser","attribute_ruler","lemmatizer","tok2vec","ner","textcat_classify"]
 batch_size = 1000
 disabled = []
 before_creation = null
@@ -81,6 +81,33 @@ nO = null
 width = 96
 upstream = "tok2vec"
 [components.tagger]
 factory = "tagger"
 label_smoothing = 0.0
@@ -260,22 +287,22 @@ eps = 0.00000001
 learn_rate = 0.001
 [training.score_weights]
-tag_acc = 0.25
-dep_uas = 0.12
-dep_las = 0.12
 dep_las_per_type = null
-sents_p = null
-sents_r = null
-sents_f = 0.0
-lemma_acc = 0.25
-ents_f = 0.12
 ents_p = 0.0
 ents_r = 0.0
 ents_per_type = null
-cats_score = 0.06
 cats_score_desc = null
 cats_micro_p = null
-cats_micro_r = 0.06
 cats_micro_f = null
 cats_macro_p = null
 cats_macro_r = null

 [nlp]
 lang = "en"
+pipeline = ["tok2vec_small","tagger","parser","attribute_ruler","senter","lemmatizer","tok2vec","ner","textcat_classify"]
 batch_size = 1000
 disabled = []
 before_creation = null
 width = 96
 upstream = "tok2vec"
+[components.senter]
+factory = "senter"
+overwrite = false
+scorer = {"@scorers":"spacy.senter_scorer.v1"}
+[components.senter.model]
+@architectures = "spacy.Tagger.v2"
+nO = null
+normalize = false
+[components.senter.model.tok2vec]
+@architectures = "spacy.Tok2Vec.v2"
+[components.senter.model.tok2vec.embed]
+@architectures = "spacy.MultiHashEmbed.v2"
+width = 16
+attrs = ["NORM","PREFIX","SUFFIX","SHAPE","SPACY"]
+rows = [1000,500,500,500,50]
+include_static_vectors = false
+[components.senter.model.tok2vec.encode]
+@architectures = "spacy.MaxoutWindowEncoder.v2"
+width = 16
+depth = 2
+window_size = 1
+maxout_pieces = 2
 [components.tagger]
 factory = "tagger"
 label_smoothing = 0.0
 learn_rate = 0.001
 [training.score_weights]
+tag_acc = 0.2
+dep_uas = 0.1
+dep_las = 0.1
 dep_las_per_type = null
+sents_p = 0.0
+sents_r = 0.0
+sents_f = 0.2
+lemma_acc = 0.2
+ents_f = 0.1
 ents_p = 0.0
 ents_r = 0.0
 ents_per_type = null
+cats_score = 0.05
 cats_score_desc = null
 cats_micro_p = null
+cats_micro_r = 0.05
 cats_micro_f = null
 cats_macro_p = null
 cats_macro_r = null

custom_textcat.py CHANGED Viewed

@@ -111,7 +111,6 @@ class CustomTextcat(TextCategorizer):
         self.cfg = dict(cfg)
         self.scorer = scorer
         if weights is not None:
-            print(f"Using weights: {weights}")
             self.weights = numpy.array(weights)
     def get_loss(self, examples: Iterable[Example], scores) -> Tuple[float, float]:

         self.cfg = dict(cfg)
         self.scorer = scorer
         if weights is not None:
             self.weights = numpy.array(weights)
     def get_loss(self, examples: Iterable[Example], scores) -> Tuple[float, float]:

en_tako_query_analyzer-any-py3-none-any.whl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d276080166d535d192f52fef9138c4678a32445a14b0c27f9a43c974be5c3aca
-size 619963181

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8e1d83f7eaa00d4dfb3414bed716f22e27a59e12006528fa8d240ef1ac36e02
+size 620143055

meta.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "lang":"en",
   "name":"tako_query_analyzer",
-  "version":"0.0.2",
   "description":"",
   "author":"",
   "email":"",
@@ -158,6 +158,7 @@
     "tagger",
     "parser",
     "attribute_ruler",
     "lemmatizer",
     "tok2vec",
     "ner",
@@ -168,6 +169,7 @@
     "tagger",
     "parser",
     "attribute_ruler",
     "lemmatizer",
     "tok2vec",
     "ner",

 {
   "lang":"en",
   "name":"tako_query_analyzer",
+  "version":"0.0.3",
   "description":"",
   "author":"",
   "email":"",
     "tagger",
     "parser",
     "attribute_ruler",
+    "senter",
     "lemmatizer",
     "tok2vec",
     "ner",
     "tagger",
     "parser",
     "attribute_ruler",
+    "senter",
     "lemmatizer",
     "tok2vec",
     "ner",

senter/cfg ADDED Viewed

+{
+  "overwrite":false
+}

senter/model ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:e62c2504dcdc66144b30c048100af05f12207f933f6d669982b947ae71ffdeef
+size 197089