Spaces:

k2-fsa
/

automatic-speech-recognition

Running

App Files Files Community

csukuangfj commited on Jul 19, 2024

Commit

bcc0b4f

1 Parent(s): 46930c1

add sense-voice

Browse files

Files changed (8) hide show

examples.py +40 -0
model.py +43 -0
requirements.txt +1 -1
test_wavs/sense_voice/en.wav +0 -0
test_wavs/sense_voice/ja.wav +0 -0
test_wavs/sense_voice/ko.wav +0 -0
test_wavs/sense_voice/yue.wav +0 -0
test_wavs/sense_voice/zh.wav +0 -0

examples.py CHANGED Viewed

@@ -32,6 +32,14 @@ examples = [
         "Yes",
         "./test_wavs/cantonese/2.wav",
     ],
     [
         "Cantonese",
         "zrjin/icefall-asr-mdcc-zipformer-2024-03-11",
@@ -461,4 +469,36 @@ examples = [
         "No",
         "./test_wavs/thai/2.wav",
     ],
 ]

         "Yes",
         "./test_wavs/cantonese/2.wav",
     ],
+    [
+        "Chinese+English+Cantonese+Japanese+Korean",
+        "csukuangfj/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17",
+        "greedy_search",
+        4,
+        "Yes",
+        "./test_wavs/sense_voice/yue.wav",
+    ],
     [
         "Cantonese",
         "zrjin/icefall-asr-mdcc-zipformer-2024-03-11",
         "No",
         "./test_wavs/thai/2.wav",
     ],
+    [
+        "Chinese+English+Cantonese+Japanese+Korean",
+        "csukuangfj/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17",
+        "greedy_search",
+        4,
+        "Yes",
+        "./test_wavs/sense_voice/zh.wav",
+    ],
+    [
+        "Chinese+English+Cantonese+Japanese+Korean",
+        "csukuangfj/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17",
+        "greedy_search",
+        4,
+        "Yes",
+        "./test_wavs/sense_voice/en.wav",
+    ],
+    [
+        "Chinese+English+Cantonese+Japanese+Korean",
+        "csukuangfj/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17",
+        "greedy_search",
+        4,
+        "Yes",
+        "./test_wavs/sense_voice/ja.wav",
+    ],
+    [
+        "Chinese+English+Cantonese+Japanese+Korean",
+        "csukuangfj/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17",
+        "greedy_search",
+        4,
+        "Yes",
+        "./test_wavs/sense_voice/ko.wav",
+    ],
 ]

model.py CHANGED Viewed

@@ -184,6 +184,10 @@ def get_pretrained_model(
         return chinese_cantonese_english_models[repo_id](
             repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
         )
     elif repo_id in cantonese_models:
         return cantonese_models[repo_id](
             repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
@@ -1294,6 +1298,37 @@ def _get_chinese_dialect_models(
     return recognizer
 @lru_cache(maxsize=10)
 def _get_paraformer_pre_trained_model(
     repo_id: str,
@@ -1531,6 +1566,10 @@ chinese_cantonese_english_models = {
     "csukuangfj/sherpa-onnx-streaming-paraformer-trilingual-zh-cantonese-en": _get_streaming_paraformer_zh_yue_en_pre_trained_model,
 }
 cantonese_models = {
     "zrjin/icefall-asr-mdcc-zipformer-2024-03-11": _get_zrjin_cantonese_pre_trained_model,
 }
@@ -1550,6 +1589,7 @@ all_models = {
     **english_models,
     **chinese_english_mixed_models,
     **chinese_cantonese_english_models,
     **cantonese_models,
     #  **japanese_models,
     **tibetan_models,
@@ -1567,6 +1607,9 @@ language_to_models = {
     "English": list(english_models.keys()),
     "Chinese+English": list(chinese_english_mixed_models.keys()),
     "Chinese+English+Cantonese": list(chinese_cantonese_english_models.keys()),
     "Cantonese": list(cantonese_models.keys()),
     #  "Japanese": list(japanese_models.keys()),
     "Tibetan": list(tibetan_models.keys()),

         return chinese_cantonese_english_models[repo_id](
             repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
         )
+    elif repo_id in chinese_cantonese_english_japanese_korean_models:
+        return chinese_cantonese_english_japanese_korean_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
     elif repo_id in cantonese_models:
         return cantonese_models[repo_id](
             repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
     return recognizer
+@lru_cache(maxsize=10)
+def _get_sense_voice_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in [
+        "csukuangfj/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17",
+    ], repo_id
+    nn_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="model.int8.onnx",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    recognizer = sherpa_onnx.OfflineRecognizer.from_sense_voice(
+        model=nn_model,
+        tokens=tokens,
+        num_threads=2,
+        sample_rate=sample_rate,
+        feature_dim=80,
+        decoding_method="greedy_search",
+        debug=True,
+    )
+    return recognizer
 @lru_cache(maxsize=10)
 def _get_paraformer_pre_trained_model(
     repo_id: str,
     "csukuangfj/sherpa-onnx-streaming-paraformer-trilingual-zh-cantonese-en": _get_streaming_paraformer_zh_yue_en_pre_trained_model,
 }
+chinese_cantonese_english_japanese_korean_models = {
+    "csukuangfj/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17": _get_sense_voice_pre_trained_model,
+}
 cantonese_models = {
     "zrjin/icefall-asr-mdcc-zipformer-2024-03-11": _get_zrjin_cantonese_pre_trained_model,
 }
     **english_models,
     **chinese_english_mixed_models,
     **chinese_cantonese_english_models,
+    **chinese_cantonese_english_japanese_korean_models,
     **cantonese_models,
     #  **japanese_models,
     **tibetan_models,
     "English": list(english_models.keys()),
     "Chinese+English": list(chinese_english_mixed_models.keys()),
     "Chinese+English+Cantonese": list(chinese_cantonese_english_models.keys()),
+    "Chinese+English+Cantonese+Japanese+Korean": list(
+        chinese_cantonese_english_japanese_korean_models.keys()
+    ),
     "Cantonese": list(cantonese_models.keys()),
     #  "Japanese": list(japanese_models.keys()),
     "Tibetan": list(tibetan_models.keys()),

requirements.txt CHANGED Viewed

@@ -12,4 +12,4 @@ huggingface_hub
 #https://huggingface.co/csukuangfj/sherpa-onnx-wheels/resolve/main/sherpa_onnx-1.9.26-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
-sherpa-onnx>=1.9.21


12
13	#https://huggingface.co/csukuangfj/sherpa-onnx-wheels/resolve/main/sherpa_onnx-1.9.26-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
14
15	+ sherpa-onnx>=1.10.17

test_wavs/sense_voice/en.wav ADDED Viewed

Binary file (229 kB). View file

test_wavs/sense_voice/ja.wav ADDED Viewed

Binary file (230 kB). View file

test_wavs/sense_voice/ko.wav ADDED Viewed

Binary file (148 kB). View file

test_wavs/sense_voice/yue.wav ADDED Viewed

Binary file (165 kB). View file

test_wavs/sense_voice/zh.wav ADDED Viewed

Binary file (179 kB). View file