arxyzan
/

data2vec-roberta-base

Feature Extraction

text-embeddings-inference

Model card Files Files and versions

arxyzan commited on May 17, 2022

Commit

71e5e47

·

1 Parent(s): 6659637

add tokenizer

Files changed (1) hide show

tokenizer.json +4 -2

tokenizer.json CHANGED Viewed

@@ -53,7 +53,8 @@
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": false,
-    "trim_offsets": true
   },
   "post_processor": {
     "type": "RobertaProcessing",
@@ -71,7 +72,8 @@
   "decoder": {
     "type": "ByteLevel",
     "add_prefix_space": true,
-    "trim_offsets": true
   },
   "model": {
     "type": "BPE",

   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": false,
+    "trim_offsets": true,
+    "use_regex": true
   },
   "post_processor": {
     "type": "RobertaProcessing",
   "decoder": {
     "type": "ByteLevel",
     "add_prefix_space": true,
+    "trim_offsets": true,
+    "use_regex": true
   },
   "model": {
     "type": "BPE",