Spaces:

k2-fsa
/

speaker-diarization

Running

App Files Files Community

csukuangfj commited on Oct 14, 2024

Commit

3b63443

1 Parent(s): c07a3d1

minor fixes

Browse files

Files changed (2) hide show

app.py +12 -9
model.py +22 -21

app.py CHANGED Viewed

@@ -89,15 +89,18 @@ def process_uploaded_file(
             "result_item_error",
         )
-    try:
-        input_threshold = float(input_threshold)
-        if input_threshold < 0 or input_threshold < 10:
-            raise ValueError("")
-    except ValueError:
-        return "", build_html_output(
-            "Please set a valid threshold between (0, 10)",
-            "result_item_error",
-        )
     MyPrint(f"Processing uploaded file: {in_filename}")
     try:

             "result_item_error",
         )
+    if input_num_speakers < 0:
+        try:
+            input_threshold = float(input_threshold)
+            if input_threshold < 0 or input_threshold > 10:
+                raise ValueError("")
+        except ValueError:
+            return "", build_html_output(
+                "Please set a valid threshold between (0, 10)",
+                "result_item_error",
+            )
+    else:
+        input_threshold = 0
     MyPrint(f"Processing uploaded file: {in_filename}")
     try:

model.py CHANGED Viewed

@@ -71,6 +71,7 @@ def get_speaker_segmentation_model(repo_id) -> List[str]:
 def get_speaker_embedding_model(model_name) -> List[str]:
     assert (
         model_name
         in three_d_speaker_embedding_models
@@ -117,32 +118,32 @@ speaker_segmentation_models = ["pyannote/segmentation-3.0"]
 nemo_speaker_embedding_models = [
-    "nemo_en_speakerverification_speakernet.onnx",
-    "nemo_en_titanet_large.onnx",
-    "nemo_en_titanet_small.onnx",
 ]
 three_d_speaker_embedding_models = [
-    "3dspeaker_speech_campplus_sv_en_voxceleb_16k.onnx",
-    "3dspeaker_speech_campplus_sv_zh-cn_16k-common.onnx",
-    "3dspeaker_speech_campplus_sv_zh_en_16k-common_advanced.onnx",
-    "3dspeaker_speech_eres2net_base_200k_sv_zh-cn_16k-common.onnx",
-    "3dspeaker_speech_eres2net_base_sv_zh-cn_3dspeaker_16k.onnx",
-    "3dspeaker_speech_eres2net_large_sv_zh-cn_3dspeaker_16k.onnx",
-    "3dspeaker_speech_eres2net_sv_en_voxceleb_16k.onnx",
-    "3dspeaker_speech_eres2net_sv_zh-cn_16k-common.onnx",
-    "3dspeaker_speech_eres2netv2_sv_zh-cn_16k-common.onnx",
 ]
 wespeaker_embedding_models = [
-    "wespeaker_en_voxceleb_CAM++.onnx",
-    "wespeaker_en_voxceleb_CAM++_LM.onnx",
-    "wespeaker_en_voxceleb_resnet152_LM.onnx",
-    "wespeaker_en_voxceleb_resnet221_LM.onnx",
-    "wespeaker_en_voxceleb_resnet293_LM.onnx",
-    "wespeaker_en_voxceleb_resnet34.onnx",
-    "wespeaker_en_voxceleb_resnet34_LM.onnx",
-    "wespeaker_zh_cnceleb_resnet34.onnx",
-    "wespeaker_zh_cnceleb_resnet34_LM.onnx",
 ]
 embedding2models = {

 def get_speaker_embedding_model(model_name) -> List[str]:
+    model_name = model_name.split("|")[0]
     assert (
         model_name
         in three_d_speaker_embedding_models
 nemo_speaker_embedding_models = [
+    "nemo_en_speakerverification_speakernet.onnx|22MB",
+    "nemo_en_titanet_large.onnx|97MB",
+    "nemo_en_titanet_small.onnx|38MB",
 ]
 three_d_speaker_embedding_models = [
+    "3dspeaker_speech_eres2net_base_sv_zh-cn_3dspeaker_16k.onnx|37.8MB",
+    "3dspeaker_speech_campplus_sv_en_voxceleb_16k.onnx|28.2MB",
+    "3dspeaker_speech_campplus_sv_zh-cn_16k-common.onnx|27MB",
+    "3dspeaker_speech_campplus_sv_zh_en_16k-common_advanced.onnx|27MB",
+    "3dspeaker_speech_eres2net_base_200k_sv_zh-cn_16k-common.onnx|37.8MB",
+    "3dspeaker_speech_eres2net_large_sv_zh-cn_3dspeaker_16k.onnx|111MB",
+    "3dspeaker_speech_eres2net_sv_en_voxceleb_16k.onnx|25.3MB",
+    "3dspeaker_speech_eres2net_sv_zh-cn_16k-common.onnx|210MB",
+    "3dspeaker_speech_eres2netv2_sv_zh-cn_16k-common.onnx|68.1MB",
 ]
 wespeaker_embedding_models = [
+    "wespeaker_en_voxceleb_CAM++.onnx|28MB",
+    "wespeaker_en_voxceleb_CAM++_LM.onnx|28MB",
+    "wespeaker_en_voxceleb_resnet152_LM.onnx|76MB",
+    "wespeaker_en_voxceleb_resnet221_LM.onnx|91MB",
+    "wespeaker_en_voxceleb_resnet293_LM.onnx|110MB",
+    "wespeaker_en_voxceleb_resnet34.onnx|26MB",
+    "wespeaker_en_voxceleb_resnet34_LM.onnx|26MB",
+    "wespeaker_zh_cnceleb_resnet34.onnx|26MB",
+    "wespeaker_zh_cnceleb_resnet34_LM.onnx|26MB",
 ]
 embedding2models = {