Spaces:

k2-fsa
/

automatic-speech-recognition

Running

App Files Files Community

csukuangfj commited on Jul 13, 2024

Commit

e0ec0ba

1 Parent(s): 08af060

add libriheavy

Browse files

Files changed (1) hide show

model.py +88 -1

model.py CHANGED Viewed

@@ -976,6 +976,87 @@ def _get_french_pre_trained_model(
     return recognizer
 @lru_cache(maxsize=10)
 def _get_streaming_zipformer_pre_trained_model(
     repo_id: str,
@@ -1385,6 +1466,12 @@ english_models = {
     "whisper-base.en": _get_whisper_model,
     "whisper-small.en": _get_whisper_model,
     #  "whisper-medium.en": _get_whisper_model,
     "csukuangfj/sherpa-onnx-paraformer-en-2024-03-09": _get_paraformer_pre_trained_model,
     "yfyeung/icefall-asr-gigaspeech-zipformer-2023-10-17": _get_gigaspeech_pre_trained_model_onnx,  # noqa
     "wgb14/icefall-asr-gigaspeech-pruned-transducer-stateless2": _get_gigaspeech_pre_trained_model,  # noqa
@@ -1448,8 +1535,8 @@ cantonese_models = {
 }
 korean_models = {
-    "k2-fsa/sherpa-onnx-streaming-zipformer-korean-2024-06-16": _get_streaming_zipformer_pre_trained_model,
     "k2-fsa/sherpa-onnx-zipformer-korean-2024-06-24": _get_offline_pre_trained_model,
 }
 thai_models = {

     return recognizer
+_get_sherpa_onnx_offline_zipformer_pre_trained_model
+@lru_cache(maxsize=10)
+def _get_sherpa_onnx_offline_zipformer_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in [
+        "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230926-large",
+        "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230926-medium",
+        "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230926-small",
+        "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230830-large-punct-case",
+        "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230830-medium-punct-case",
+        "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230830-small-punct-case",
+    ], repo_id
+    if repo_id == "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230926-large":
+        epoch = 16
+        avg = 3
+    elif repo_id == "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230926-medium":
+        epoch = 60
+        avg = 20
+    elif repo_id == "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230926-small":
+        epoch = 90
+        avg = 20
+    elif (
+        repo_id
+        == "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230830-large-punct-case"
+    ):
+        epoch = 16
+        avg = 2
+    elif (
+        repo_id
+        == "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230830-medium-punct-case"
+    ):
+        epoch = 50
+        avg = 15
+    elif (
+        repo_id
+        == "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230830-small-punct-case"
+    ):
+        epoch = 88
+        avg = 41
+    encoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename=f"encoder-epoch-{epoch}-avg-{avg}.int8.onnx",
+        subfolder=".",
+    )
+    decoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename=f"decoder-epoch-{epoch}-avg-{avg}.onnx",
+        subfolder=".",
+    )
+    joiner_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename=f"joiner-epoch-{epoch}-avg-{avg}.int8.onnx",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    recognizer = sherpa_onnx.OfflineRecognizer.from_transducer(
+        tokens=tokens,
+        encoder=encoder_model,
+        decoder=decoder_model,
+        joiner=joiner_model,
+        num_threads=2,
+        sample_rate=16000,
+        feature_dim=80,
+        decoding_method=decoding_method,
+        max_active_paths=num_active_paths,
+    )
+    return recognizer
 @lru_cache(maxsize=10)
 def _get_streaming_zipformer_pre_trained_model(
     repo_id: str,
     "whisper-base.en": _get_whisper_model,
     "whisper-small.en": _get_whisper_model,
     #  "whisper-medium.en": _get_whisper_model,
+    "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230926-large": _get_sherpa_onnx_offline_zipformer_pre_trained_model,
+    "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230926-medium": _get_sherpa_onnx_offline_zipformer_pre_trained_model,
+    "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230926-small": _get_sherpa_onnx_offline_zipformer_pre_trained_model,
+    "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230830-large-punct-case": _get_sherpa_onnx_offline_zipformer_pre_trained_model,
+    "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230830-medium-punct-case": _get_sherpa_onnx_offline_zipformer_pre_trained_model,
+    "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230830-small-punct-case": _get_sherpa_onnx_offline_zipformer_pre_trained_model,
     "csukuangfj/sherpa-onnx-paraformer-en-2024-03-09": _get_paraformer_pre_trained_model,
     "yfyeung/icefall-asr-gigaspeech-zipformer-2023-10-17": _get_gigaspeech_pre_trained_model_onnx,  # noqa
     "wgb14/icefall-asr-gigaspeech-pruned-transducer-stateless2": _get_gigaspeech_pre_trained_model,  # noqa
 }
 korean_models = {
     "k2-fsa/sherpa-onnx-zipformer-korean-2024-06-24": _get_offline_pre_trained_model,
+    "k2-fsa/sherpa-onnx-streaming-zipformer-korean-2024-06-16": _get_streaming_zipformer_pre_trained_model,
 }
 thai_models = {