Spaces:

HuggingFaceFW-Dev
/

lang-word-tokenizers

Running

App Files Files Community

guipenedo HF Staff commited on Oct 10, 2024

Commit

baa687b

unverified ·

1 Parent(s): 49dc1e7

added khmer, tibetan and lao

Browse files

Files changed (3) hide show

data/Austro-Asiatic.json +77 -3
data/Kra-Dai.json +33 -2
data/Sino-Tibetan.json +86 -7

data/Austro-Asiatic.json CHANGED Viewed

@@ -813,6 +813,13 @@
                                   "children": [],
                                   "family": "Austro-Asiatic",
                                   "tokenizers": {
                                     "Latn": {
                                       "full_object": "SpaCyTokenizer(\"vi\")",
                                       "original_lang_name": "vietnamese",
@@ -855,6 +862,13 @@
                               ],
                               "family": "Austro-Asiatic",
                               "tokenizers": {
                                 "Latn": {
                                   "full_object": "SpaCyTokenizer(\"vi\")",
                                   "original_lang_name": "vietnamese",
@@ -870,6 +884,13 @@
                           ],
                           "family": "Austro-Asiatic",
                           "tokenizers": {
                             "Latn": {
                               "full_object": "SpaCyTokenizer(\"vi\")",
                               "original_lang_name": "vietnamese",
@@ -922,6 +943,13 @@
                       ],
                       "family": "Austro-Asiatic",
                       "tokenizers": {
                         "Latn": {
                           "full_object": "SpaCyTokenizer(\"vi\")",
                           "original_lang_name": "vietnamese",
@@ -986,6 +1014,13 @@
                   ],
                   "family": "Austro-Asiatic",
                   "tokenizers": {
                     "Latn": {
                       "full_object": "SpaCyTokenizer(\"vi\")",
                       "original_lang_name": "vietnamese",
@@ -1174,6 +1209,13 @@
               ],
               "family": "Austro-Asiatic",
               "tokenizers": {
                 "Latn": {
                   "full_object": "SpaCyTokenizer(\"vi\")",
                   "original_lang_name": "vietnamese",
@@ -1568,9 +1610,19 @@
                   "iso_3_code": "khm",
                   "children": [],
                   "family": "Austro-Asiatic",
-                  "tokenizers": {},
                   "node_i": "1283",
-                  "native_tokenizers": [],
                   "scripts": [
                     "Khmr"
                   ]
@@ -1591,7 +1643,15 @@
                 }
               ],
               "family": "Austro-Asiatic",
-              "tokenizers": {},
               "node_i": "1282",
               "native_tokenizers": [],
               "scripts": []
@@ -1749,6 +1809,13 @@
           ],
           "family": "Austro-Asiatic",
           "tokenizers": {
             "Latn": {
               "full_object": "SpaCyTokenizer(\"vi\")",
               "original_lang_name": "vietnamese",
@@ -3141,6 +3208,13 @@
       ],
       "family": "Austro-Asiatic",
       "tokenizers": {
         "Latn": {
           "full_object": "SpaCyTokenizer(\"vi\")",
           "original_lang_name": "vietnamese",

                                   "children": [],
                                   "family": "Austro-Asiatic",
                                   "tokenizers": {
+                                    "Khmr": {
+                                      "full_object": "KhmerTokenizer()",
+                                      "original_lang_name": "khmer",
+                                      "original_lang_code": "khm",
+                                      "script": "Khmr",
+                                      "class_name": "KhmerTokenizer"
+                                    },
                                     "Latn": {
                                       "full_object": "SpaCyTokenizer(\"vi\")",
                                       "original_lang_name": "vietnamese",
                               ],
                               "family": "Austro-Asiatic",
                               "tokenizers": {
+                                "Khmr": {
+                                  "full_object": "KhmerTokenizer()",
+                                  "original_lang_name": "khmer",
+                                  "original_lang_code": "khm",
+                                  "script": "Khmr",
+                                  "class_name": "KhmerTokenizer"
+                                },
                                 "Latn": {
                                   "full_object": "SpaCyTokenizer(\"vi\")",
                                   "original_lang_name": "vietnamese",
                           ],
                           "family": "Austro-Asiatic",
                           "tokenizers": {
+                            "Khmr": {
+                              "full_object": "KhmerTokenizer()",
+                              "original_lang_name": "khmer",
+                              "original_lang_code": "khm",
+                              "script": "Khmr",
+                              "class_name": "KhmerTokenizer"
+                            },
                             "Latn": {
                               "full_object": "SpaCyTokenizer(\"vi\")",
                               "original_lang_name": "vietnamese",
                       ],
                       "family": "Austro-Asiatic",
                       "tokenizers": {
+                        "Khmr": {
+                          "full_object": "KhmerTokenizer()",
+                          "original_lang_name": "khmer",
+                          "original_lang_code": "khm",
+                          "script": "Khmr",
+                          "class_name": "KhmerTokenizer"
+                        },
                         "Latn": {
                           "full_object": "SpaCyTokenizer(\"vi\")",
                           "original_lang_name": "vietnamese",
                   ],
                   "family": "Austro-Asiatic",
                   "tokenizers": {
+                    "Khmr": {
+                      "full_object": "KhmerTokenizer()",
+                      "original_lang_name": "khmer",
+                      "original_lang_code": "khm",
+                      "script": "Khmr",
+                      "class_name": "KhmerTokenizer"
+                    },
                     "Latn": {
                       "full_object": "SpaCyTokenizer(\"vi\")",
                       "original_lang_name": "vietnamese",
               ],
               "family": "Austro-Asiatic",
               "tokenizers": {
+                "Khmr": {
+                  "full_object": "KhmerTokenizer()",
+                  "original_lang_name": "khmer",
+                  "original_lang_code": "khm",
+                  "script": "Khmr",
+                  "class_name": "KhmerTokenizer"
+                },
                 "Latn": {
                   "full_object": "SpaCyTokenizer(\"vi\")",
                   "original_lang_name": "vietnamese",
                   "iso_3_code": "khm",
                   "children": [],
                   "family": "Austro-Asiatic",
+                  "tokenizers": {
+                    "Khmr": {
+                      "full_object": "KhmerTokenizer()",
+                      "original_lang_name": "khmer",
+                      "original_lang_code": "khm",
+                      "script": "Khmr",
+                      "class_name": "KhmerTokenizer"
+                    }
+                  },
                   "node_i": "1283",
+                  "native_tokenizers": [
+                    "Khmr"
+                  ],
                   "scripts": [
                     "Khmr"
                   ]
                 }
               ],
               "family": "Austro-Asiatic",
+              "tokenizers": {
+                "Khmr": {
+                  "full_object": "KhmerTokenizer()",
+                  "original_lang_name": "khmer",
+                  "original_lang_code": "khm",
+                  "script": "Khmr",
+                  "class_name": "KhmerTokenizer"
+                }
+              },
               "node_i": "1282",
               "native_tokenizers": [],
               "scripts": []
           ],
           "family": "Austro-Asiatic",
           "tokenizers": {
+            "Khmr": {
+              "full_object": "KhmerTokenizer()",
+              "original_lang_name": "khmer",
+              "original_lang_code": "khm",
+              "script": "Khmr",
+              "class_name": "KhmerTokenizer"
+            },
             "Latn": {
               "full_object": "SpaCyTokenizer(\"vi\")",
               "original_lang_name": "vietnamese",
       ],
       "family": "Austro-Asiatic",
       "tokenizers": {
+        "Khmr": {
+          "full_object": "KhmerTokenizer()",
+          "original_lang_name": "khmer",
+          "original_lang_code": "khm",
+          "script": "Khmr",
+          "class_name": "KhmerTokenizer"
+        },
         "Latn": {
           "full_object": "SpaCyTokenizer(\"vi\")",
           "original_lang_name": "vietnamese",

data/Kra-Dai.json CHANGED Viewed

@@ -722,9 +722,19 @@
                   "iso_3_code": "lao",
                   "children": [],
                   "family": "Kra-Dai",
-                  "tokenizers": {},
                   "node_i": "4725",
-                  "native_tokenizers": [],
                   "scripts": [
                     "Laoo"
                   ]
@@ -1020,6 +1030,13 @@
               ],
               "family": "Kra-Dai",
               "tokenizers": {
                 "Thai": {
                   "full_object": "ThaiTokenizer()",
                   "original_lang_name": "thai",
@@ -1035,6 +1052,13 @@
           ],
           "family": "Kra-Dai",
           "tokenizers": {
             "Thai": {
               "full_object": "ThaiTokenizer()",
               "original_lang_name": "thai",
@@ -1050,6 +1074,13 @@
       ],
       "family": "Kra-Dai",
       "tokenizers": {
         "Thai": {
           "full_object": "ThaiTokenizer()",
           "original_lang_name": "thai",

                   "iso_3_code": "lao",
                   "children": [],
                   "family": "Kra-Dai",
+                  "tokenizers": {
+                    "Laoo": {
+                      "full_object": "LaoTokenizer()",
+                      "original_lang_name": "lao",
+                      "original_lang_code": "lao",
+                      "script": "Laoo",
+                      "class_name": "LaoTokenizer"
+                    }
+                  },
                   "node_i": "4725",
+                  "native_tokenizers": [
+                    "Laoo"
+                  ],
                   "scripts": [
                     "Laoo"
                   ]
               ],
               "family": "Kra-Dai",
               "tokenizers": {
+                "Laoo": {
+                  "full_object": "LaoTokenizer()",
+                  "original_lang_name": "lao",
+                  "original_lang_code": "lao",
+                  "script": "Laoo",
+                  "class_name": "LaoTokenizer"
+                },
                 "Thai": {
                   "full_object": "ThaiTokenizer()",
                   "original_lang_name": "thai",
           ],
           "family": "Kra-Dai",
           "tokenizers": {
+            "Laoo": {
+              "full_object": "LaoTokenizer()",
+              "original_lang_name": "lao",
+              "original_lang_code": "lao",
+              "script": "Laoo",
+              "class_name": "LaoTokenizer"
+            },
             "Thai": {
               "full_object": "ThaiTokenizer()",
               "original_lang_name": "thai",
       ],
       "family": "Kra-Dai",
       "tokenizers": {
+        "Laoo": {
+          "full_object": "LaoTokenizer()",
+          "original_lang_name": "lao",
+          "original_lang_code": "lao",
+          "script": "Laoo",
+          "class_name": "LaoTokenizer"
+        },
         "Thai": {
           "full_object": "ThaiTokenizer()",
           "original_lang_name": "thai",

data/Sino-Tibetan.json CHANGED Viewed

@@ -5266,9 +5266,19 @@
                           "iso_3_code": "bod",
                           "children": [],
                           "family": "Sino-Tibetan",
-                          "tokenizers": {},
                           "node_i": "9329",
-                          "native_tokenizers": [],
                           "scripts": [
                             "Tibt"
                           ]
@@ -5509,9 +5519,19 @@
                               "iso_3_code": "dzo",
                               "children": [],
                               "family": "Sino-Tibetan",
-                              "tokenizers": {},
                               "node_i": "9348",
-                              "native_tokenizers": [],
                               "scripts": [
                                 "Tibt"
                               ]
@@ -5590,7 +5610,15 @@
                             }
                           ],
                           "family": "Sino-Tibetan",
-                          "tokenizers": {},
                           "node_i": "9345",
                           "native_tokenizers": [],
                           "scripts": []
@@ -5647,6 +5675,13 @@
                       ],
                       "family": "Sino-Tibetan",
                       "tokenizers": {
                         "Deva": {
                           "full_object": "IndicNLPTokenizer(\"hi\")",
                           "original_lang_name": "bodo",
@@ -5758,7 +5793,15 @@
                           "iso_3_code": "lbj",
                           "children": [],
                           "family": "Sino-Tibetan",
-                          "tokenizers": {},
                           "node_i": "9367",
                           "native_tokenizers": [],
                           "scripts": [
@@ -5791,7 +5834,15 @@
                         }
                       ],
                       "family": "Sino-Tibetan",
-                      "tokenizers": {},
                       "node_i": "9364",
                       "native_tokenizers": [],
                       "scripts": []
@@ -5799,6 +5850,13 @@
                   ],
                   "family": "Sino-Tibetan",
                   "tokenizers": {
                     "Deva": {
                       "full_object": "IndicNLPTokenizer(\"hi\")",
                       "original_lang_name": "bodo",
@@ -6464,6 +6522,13 @@
               ],
               "family": "Sino-Tibetan",
               "tokenizers": {
                 "Deva": {
                   "full_object": "IndicNLPTokenizer(\"hi\")",
                   "original_lang_name": "bodo",
@@ -7310,6 +7375,13 @@
           ],
           "family": "Sino-Tibetan",
           "tokenizers": {
             "Deva": {
               "full_object": "IndicNLPTokenizer(\"hi\")",
               "original_lang_name": "bodo",
@@ -7331,6 +7403,13 @@
           "original_lang_code": "brx",
           "script": "Deva",
           "class_name": "IndicNLPTokenizer"
         }
       },
       "node_i": "8937",

                           "iso_3_code": "bod",
                           "children": [],
                           "family": "Sino-Tibetan",
+                          "tokenizers": {
+                            "Tibt": {
+                              "full_object": "TibetanTokenizer()",
+                              "original_lang_name": "tibetan",
+                              "original_lang_code": "bod",
+                              "script": "Tibt",
+                              "class_name": "TibetanTokenizer"
+                            }
+                          },
                           "node_i": "9329",
+                          "native_tokenizers": [
+                            "Tibt"
+                          ],
                           "scripts": [
                             "Tibt"
                           ]
                               "iso_3_code": "dzo",
                               "children": [],
                               "family": "Sino-Tibetan",
+                              "tokenizers": {
+                                "Tibt": {
+                                  "full_object": "TibetanTokenizer()",
+                                  "original_lang_name": "dzongkha",
+                                  "original_lang_code": "dzo",
+                                  "script": "Tibt",
+                                  "class_name": "TibetanTokenizer"
+                                }
+                              },
                               "node_i": "9348",
+                              "native_tokenizers": [
+                                "Tibt"
+                              ],
                               "scripts": [
                                 "Tibt"
                               ]
                             }
                           ],
                           "family": "Sino-Tibetan",
+                          "tokenizers": {
+                            "Tibt": {
+                              "full_object": "TibetanTokenizer()",
+                              "original_lang_name": "dzongkha",
+                              "original_lang_code": "dzo",
+                              "script": "Tibt",
+                              "class_name": "TibetanTokenizer"
+                            }
+                          },
                           "node_i": "9345",
                           "native_tokenizers": [],
                           "scripts": []
                       ],
                       "family": "Sino-Tibetan",
                       "tokenizers": {
+                        "Tibt": {
+                          "full_object": "TibetanTokenizer()",
+                          "original_lang_name": "tibetan",
+                          "original_lang_code": "bod",
+                          "script": "Tibt",
+                          "class_name": "TibetanTokenizer"
+                        },
                         "Deva": {
                           "full_object": "IndicNLPTokenizer(\"hi\")",
                           "original_lang_name": "bodo",
                           "iso_3_code": "lbj",
                           "children": [],
                           "family": "Sino-Tibetan",
+                          "tokenizers": {
+                            "Tibt": {
+                              "full_object": "TibetanTokenizer()",
+                              "original_lang_name": "tibetan",
+                              "original_lang_code": "bod",
+                              "script": "Tibt",
+                              "class_name": "TibetanTokenizer"
+                            }
+                          },
                           "node_i": "9367",
                           "native_tokenizers": [],
                           "scripts": [
                         }
                       ],
                       "family": "Sino-Tibetan",
+                      "tokenizers": {
+                        "Tibt": {
+                          "full_object": "TibetanTokenizer()",
+                          "original_lang_name": "tibetan",
+                          "original_lang_code": "bod",
+                          "script": "Tibt",
+                          "class_name": "TibetanTokenizer"
+                        }
+                      },
                       "node_i": "9364",
                       "native_tokenizers": [],
                       "scripts": []
                   ],
                   "family": "Sino-Tibetan",
                   "tokenizers": {
+                    "Tibt": {
+                      "full_object": "TibetanTokenizer()",
+                      "original_lang_name": "tibetan",
+                      "original_lang_code": "bod",
+                      "script": "Tibt",
+                      "class_name": "TibetanTokenizer"
+                    },
                     "Deva": {
                       "full_object": "IndicNLPTokenizer(\"hi\")",
                       "original_lang_name": "bodo",
               ],
               "family": "Sino-Tibetan",
               "tokenizers": {
+                "Tibt": {
+                  "full_object": "TibetanTokenizer()",
+                  "original_lang_name": "tibetan",
+                  "original_lang_code": "bod",
+                  "script": "Tibt",
+                  "class_name": "TibetanTokenizer"
+                },
                 "Deva": {
                   "full_object": "IndicNLPTokenizer(\"hi\")",
                   "original_lang_name": "bodo",
           ],
           "family": "Sino-Tibetan",
           "tokenizers": {
+            "Tibt": {
+              "full_object": "TibetanTokenizer()",
+              "original_lang_name": "tibetan",
+              "original_lang_code": "bod",
+              "script": "Tibt",
+              "class_name": "TibetanTokenizer"
+            },
             "Deva": {
               "full_object": "IndicNLPTokenizer(\"hi\")",
               "original_lang_name": "bodo",
           "original_lang_code": "brx",
           "script": "Deva",
           "class_name": "IndicNLPTokenizer"
+        },
+        "Tibt": {
+          "full_object": "TibetanTokenizer()",
+          "original_lang_name": "tibetan",
+          "original_lang_code": "bod",
+          "script": "Tibt",
+          "class_name": "TibetanTokenizer"
         }
       },
       "node_i": "8937",