Spaces:

intelli-zen
/

asr

Running

App Files Files Community

HoneyTian commited on May 16, 2024

Commit

302c392

1 Parent(s): d49cecc

update

Browse files

Files changed (2) hide show

toolbox/k2_sherpa/examples.py +59 -3
toolbox/k2_sherpa/nn_models.py +106 -30

toolbox/k2_sherpa/examples.py CHANGED Viewed

@@ -43,6 +43,30 @@ examples = [
         "Yes",
         "./data/test_wavs/cantonese/1.wav",
     ],
     [
         "German",
         "csukuangfj/wav2vec2.0-torchaudio",
@@ -84,11 +108,43 @@ examples = [
         "./data/test_wavs/french/common_voice_fr_27024649.wav",
     ],
     [
-        "Tibetan",
-        "syzym/icefall-asr-xbmu-amdo31-pruned-transducer-stateless7-2022-12-02",
         "greedy_search",
         4,
         "No",
-        "./data/test_wavs/tibetan/a_0_cacm-A70_31117.wav",
     ],
 ]

         "Yes",
         "./data/test_wavs/cantonese/1.wav",
     ],
+    [
+        "Tibetan",
+        "syzym/icefall-asr-xbmu-amdo31-pruned-transducer-stateless7-2022-12-02",
+        "greedy_search",
+        4,
+        "No",
+        "./data/test_wavs/tibetan/a_0_cacm-A70_31117.wav",
+    ],
+    [
+        "Tibetan",
+        "syzym/icefall-asr-xbmu-amdo31-pruned-transducer-stateless7-2022-12-02",
+        "greedy_search",
+        4,
+        "No",
+        "./data/test_wavs/tibetan/a_0_cacm-A70_31116.wav",
+    ],
+    [
+        "Tibetan",
+        "syzym/icefall-asr-xbmu-amdo31-pruned-transducer-stateless7-2022-12-02",
+        "greedy_search",
+        4,
+        "No",
+        "./data/test_wavs/tibetan/a_0_cacm-A70_31118.wav",
+    ],
     [
         "German",
         "csukuangfj/wav2vec2.0-torchaudio",
         "./data/test_wavs/french/common_voice_fr_27024649.wav",
     ],
     [
+        "Russian",
+        "alphacep/vosk-model-ru",
         "greedy_search",
         4,
         "No",
+        "./data/test_wavs/russian/russian-i-love-you.wav",
+    ],
+    [
+        "Russian",
+        "alphacep/vosk-model-ru",
+        "greedy_search",
+        4,
+        "No",
+        "./data/test_wavs/russian/test.wav",
+    ],
+    [
+        "Arabic",
+        "AmirHussein/icefall-asr-mgb2-conformer_ctc-2022-27-06",
+        "greedy_search",
+        4,
+        "No",
+        "./data/test_wavs/arabic/a.wav",
+    ],
+    [
+        "Arabic",
+        "AmirHussein/icefall-asr-mgb2-conformer_ctc-2022-27-06",
+        "greedy_search",
+        4,
+        "No",
+        "./data/test_wavs/arabic/b.wav",
+    ],
+    [
+        "Arabic",
+        "AmirHussein/icefall-asr-mgb2-conformer_ctc-2022-27-06",
+        "greedy_search",
+        4,
+        "No",
+        "./data/test_wavs/arabic/c.wav",
     ],
 ]

toolbox/k2_sherpa/nn_models.py CHANGED Viewed

@@ -206,6 +206,7 @@ model_map = {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "./giga-tokens.txt",
             "tokens_file_sub_folder": ".",
             "loader": "load_sherpa_offline_recognizer",
         },
         {
@@ -214,6 +215,7 @@ model_map = {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
             "loader": "load_sherpa_offline_recognizer",
         },
         {
@@ -222,6 +224,7 @@ model_map = {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
             "loader": "load_sherpa_offline_recognizer",
         },
         {
@@ -230,6 +233,7 @@ model_map = {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
             "loader": "load_sherpa_offline_recognizer",
         },
         {
@@ -238,6 +242,7 @@ model_map = {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
             "loader": "load_sherpa_offline_recognizer",
         },
         {
@@ -246,6 +251,7 @@ model_map = {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
             "loader": "load_sherpa_offline_recognizer",
         },
         {
@@ -254,6 +260,7 @@ model_map = {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
             "loader": "load_sherpa_offline_recognizer",
         },
         {
@@ -270,6 +277,7 @@ model_map = {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
             "loader": "load_sherpa_offline_recognizer",
         },
         {
@@ -278,6 +286,7 @@ model_map = {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
             "loader": "load_sherpa_offline_recognizer",
         },
         {
@@ -286,6 +295,7 @@ model_map = {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
             "loader": "load_sherpa_offline_recognizer",
         },
         {
@@ -294,6 +304,7 @@ model_map = {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe",
             "loader": "load_sherpa_offline_recognizer",
         },
         {
@@ -302,6 +313,7 @@ model_map = {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe",
             "loader": "load_sherpa_offline_recognizer",
         },
         {
@@ -310,6 +322,7 @@ model_map = {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
             "loader": "load_sherpa_offline_recognizer",
         },
         {
@@ -318,6 +331,7 @@ model_map = {
             "nn_model_file_sub_folder": ".",
             "tokens_file": "units.txt",
             "tokens_file_sub_folder": ".",
             "loader": "load_sherpa_offline_recognizer",
         },
     ],
@@ -348,6 +362,7 @@ model_map = {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_char_bpe",
             "loader": "load_sherpa_offline_recognizer",
         },
         {
@@ -356,6 +371,7 @@ model_map = {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_char",
             "loader": "load_sherpa_offline_recognizer",
         },
     ],
@@ -393,34 +409,34 @@ model_map = {
             "loader": "load_sherpa_onnx_offline_recognizer_from_transducer",
         },
     ],
-    "Japanese": [
-        {
-            "repo_id": "TeoWenShen/icefall-asr-csj-pruned-transducer-stateless7-streaming-230208-fluent",
-            "encoder_model_file": "encoder_jit_trace.pt",
-            "encoder_model_file_sub_folder": "exp_fluent",
-            "decoder_model_file": "decoder_jit_trace.pt",
-            "decoder_model_file_sub_folder": "exp_fluent",
-            "joiner_model_file": "joiner_jit_trace.pt",
-            "joiner_model_file_sub_folder": "exp_fluent",
-            "tokens_file": "tokens.txt",
-            "tokens_file_sub_folder": "data/lang_char",
-            "normalize_samples": True,
-            "loader": "load_sherpa_online_recognizer",
-        },
-        {
-            "repo_id": "TeoWenShen/icefall-asr-csj-pruned-transducer-stateless7-streaming-230208-disfluent",
-            "encoder_model_file": "encoder_jit_trace.pt",
-            "encoder_model_file_sub_folder": "exp_disfluent",
-            "decoder_model_file": "decoder_jit_trace.pt",
-            "decoder_model_file_sub_folder": "exp_disfluent",
-            "joiner_model_file": "joiner_jit_trace.pt",
-            "joiner_model_file_sub_folder": "exp_disfluent",
-            "tokens_file": "tokens.txt",
-            "tokens_file_sub_folder": "data/lang_char",
-            "normalize_samples": True,
-            "loader": "load_sherpa_online_recognizer",
-        },
-    ],
     "German": [
         {
             "repo_id": "csukuangfj/wav2vec2.0-torchaudio",
@@ -428,8 +444,7 @@ model_map = {
             "nn_model_file_sub_folder": ".",
             "tokens_file": "tokens-de.txt",
             "tokens_file_sub_folder": ".",
-            "normalize_samples": False,
-            "loader": "load_sherpa_offline_recognizer",
         },
     ],
     "French": [
@@ -446,6 +461,42 @@ model_map = {
             "loader": "load_sherpa_onnx_online_recognizer_from_transducer",
         },
     ],
     "Tibetan": [
         {
             "repo_id": "syzym/icefall-asr-xbmu-amdo31-pruned-transducer-stateless7-2022-12-02",
@@ -453,6 +504,7 @@ model_map = {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
             "loader": "load_sherpa_offline_recognizer",
         },
         {
@@ -461,6 +513,7 @@ model_map = {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
             "loader": "load_sherpa_offline_recognizer",
         },
     ],
@@ -551,6 +604,24 @@ def load_sherpa_offline_recognizer(nn_model_file: str,
     return recognizer
 def load_sherpa_onnx_offline_recognizer_from_paraformer(nn_model_file: str,
                                                         tokens_file: str,
                                                         sample_rate: int = 16000,
@@ -730,6 +801,11 @@ def load_recognizer(local_model_dir: Path,
             num_active_paths=num_active_paths,
             **kwargs_
         )
     elif loader == "load_sherpa_onnx_offline_recognizer_from_paraformer":
         recognizer = load_sherpa_onnx_offline_recognizer_from_paraformer(
             decoding_method=decoding_method,

             "nn_model_file_sub_folder": "exp",
             "tokens_file": "./giga-tokens.txt",
             "tokens_file_sub_folder": ".",
+            "normalize_samples": True,
             "loader": "load_sherpa_offline_recognizer",
         },
         {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
+            "normalize_samples": True,
             "loader": "load_sherpa_offline_recognizer",
         },
         {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
+            "normalize_samples": True,
             "loader": "load_sherpa_offline_recognizer",
         },
         {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
+            "normalize_samples": True,
             "loader": "load_sherpa_offline_recognizer",
         },
         {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
+            "normalize_samples": True,
             "loader": "load_sherpa_offline_recognizer",
         },
         {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
+            "normalize_samples": True,
             "loader": "load_sherpa_offline_recognizer",
         },
         {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
+            "normalize_samples": True,
             "loader": "load_sherpa_offline_recognizer",
         },
         {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
+            "normalize_samples": True,
             "loader": "load_sherpa_offline_recognizer",
         },
         {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
+            "normalize_samples": True,
             "loader": "load_sherpa_offline_recognizer",
         },
         {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
+            "normalize_samples": True,
             "loader": "load_sherpa_offline_recognizer",
         },
         {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe",
+            "normalize_samples": True,
             "loader": "load_sherpa_offline_recognizer",
         },
         {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe",
+            "normalize_samples": True,
             "loader": "load_sherpa_offline_recognizer",
         },
         {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
+            "normalize_samples": True,
             "loader": "load_sherpa_offline_recognizer",
         },
         {
             "nn_model_file_sub_folder": ".",
             "tokens_file": "units.txt",
             "tokens_file_sub_folder": ".",
+            "normalize_samples": False,
             "loader": "load_sherpa_offline_recognizer",
         },
     ],
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_char_bpe",
+            "normalize_samples": True,
             "loader": "load_sherpa_offline_recognizer",
         },
         {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_char",
+            "normalize_samples": True,
             "loader": "load_sherpa_offline_recognizer",
         },
     ],
             "loader": "load_sherpa_onnx_offline_recognizer_from_transducer",
         },
     ],
+    # "Japanese": [
+    #     {
+    #         "repo_id": "TeoWenShen/icefall-asr-csj-pruned-transducer-stateless7-streaming-230208-fluent",
+    #         "encoder_model_file": "encoder_jit_trace.pt",
+    #         "encoder_model_file_sub_folder": "exp_fluent",
+    #         "decoder_model_file": "decoder_jit_trace.pt",
+    #         "decoder_model_file_sub_folder": "exp_fluent",
+    #         "joiner_model_file": "joiner_jit_trace.pt",
+    #         "joiner_model_file_sub_folder": "exp_fluent",
+    #         "tokens_file": "tokens.txt",
+    #         "tokens_file_sub_folder": "data/lang_char",
+    #         "normalize_samples": True,
+    #         "loader": "load_sherpa_online_recognizer",
+    #     },
+    #     {
+    #         "repo_id": "TeoWenShen/icefall-asr-csj-pruned-transducer-stateless7-streaming-230208-disfluent",
+    #         "encoder_model_file": "encoder_jit_trace.pt",
+    #         "encoder_model_file_sub_folder": "exp_disfluent",
+    #         "decoder_model_file": "decoder_jit_trace.pt",
+    #         "decoder_model_file_sub_folder": "exp_disfluent",
+    #         "joiner_model_file": "joiner_jit_trace.pt",
+    #         "joiner_model_file_sub_folder": "exp_disfluent",
+    #         "tokens_file": "tokens.txt",
+    #         "tokens_file_sub_folder": "data/lang_char",
+    #         "normalize_samples": True,
+    #         "loader": "load_sherpa_online_recognizer",
+    #     },
+    # ],
     "German": [
         {
             "repo_id": "csukuangfj/wav2vec2.0-torchaudio",
             "nn_model_file_sub_folder": ".",
             "tokens_file": "tokens-de.txt",
             "tokens_file_sub_folder": ".",
+            "loader": "load_sherpa_offline_recognizer_without_feat_config",
         },
     ],
     "French": [
             "loader": "load_sherpa_onnx_online_recognizer_from_transducer",
         },
     ],
+    "Russian": [
+        {
+            "repo_id": "alphacep/vosk-model-ru",
+            "encoder_model_file": "encoder.onnx",
+            "encoder_model_file_sub_folder": "am-onnx",
+            "decoder_model_file": "decoder.onnx",
+            "decoder_model_file_sub_folder": "am-onnx",
+            "joiner_model_file": "joiner.onnx",
+            "joiner_model_file_sub_folder": "am-onnx",
+            "tokens_file": "tokens.txt",
+            "tokens_file_sub_folder": "lang",
+            "loader": "load_sherpa_onnx_offline_recognizer_from_transducer",
+        },
+        {
+            "repo_id": "alphacep/vosk-model-small-ru",
+            "encoder_model_file": "encoder.onnx",
+            "encoder_model_file_sub_folder": "am",
+            "decoder_model_file": "decoder.onnx",
+            "decoder_model_file_sub_folder": "am",
+            "joiner_model_file": "joiner.onnx",
+            "joiner_model_file_sub_folder": "am",
+            "tokens_file": "tokens.txt",
+            "tokens_file_sub_folder": "lang",
+            "loader": "load_sherpa_onnx_offline_recognizer_from_transducer",
+        },
+    ],
+    "Arabic": [
+        {
+            "repo_id": "AmirHussein/icefall-asr-mgb2-conformer_ctc-2022-27-06",
+            "nn_model_file": "cpu_jit.pt",
+            "nn_model_file_sub_folder": "exp",
+            "tokens_file": "tokens.txt",
+            "tokens_file_sub_folder": "data/lang_bpe_5000",
+            "loader": "load_sherpa_offline_recognizer_without_feat_config",
+        },
+    ],
     "Tibetan": [
         {
             "repo_id": "syzym/icefall-asr-xbmu-amdo31-pruned-transducer-stateless7-2022-12-02",
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
+            "normalize_samples": True,
             "loader": "load_sherpa_offline_recognizer",
         },
         {
             "nn_model_file_sub_folder": "exp",
             "tokens_file": "tokens.txt",
             "tokens_file_sub_folder": "data/lang_bpe_500",
+            "normalize_samples": True,
             "loader": "load_sherpa_offline_recognizer",
         },
     ],
     return recognizer
+def load_sherpa_offline_recognizer_without_feat_config(nn_model_file: str,
+                                                       tokens_file: str,
+                                                       num_active_paths: int = 2,
+                                                       decoding_method: str = "greedy_search",
+                                                       ):
+    config = sherpa.OfflineRecognizerConfig(
+        nn_model=nn_model_file,
+        tokens=tokens_file,
+        use_gpu=False,
+        decoding_method=decoding_method,
+        num_active_paths=num_active_paths,
+    )
+    recognizer = sherpa.OfflineRecognizer(config)
+    return recognizer
 def load_sherpa_onnx_offline_recognizer_from_paraformer(nn_model_file: str,
                                                         tokens_file: str,
                                                         sample_rate: int = 16000,
             num_active_paths=num_active_paths,
             **kwargs_
         )
+    elif loader == "load_sherpa_offline_recognizer_without_feat_config":
+        recognizer = load_sherpa_offline_recognizer_without_feat_config(
+            decoding_method=decoding_method,
+            **kwargs_
+        )
     elif loader == "load_sherpa_onnx_offline_recognizer_from_paraformer":
         recognizer = load_sherpa_onnx_offline_recognizer_from_paraformer(
             decoding_method=decoding_method,