Spaces:

ccmusic-database
/

Guzheng_Tech99

Running

App Files Files

admin commited on Apr 23

Commit

dca18d5

1 Parent(s): ece4103

sync ms

Browse files

Files changed (4) hide show

app.py +69 -67
model.py +12 -2
requirements.txt +5 -3
utils.py +56 -6

app.py CHANGED Viewed

@@ -5,25 +5,19 @@ import warnings
 import numpy as np
 import pandas as pd
 import gradio as gr
-import librosa.display
 from model import EvalNet, t_EvalNet
-from utils import get_modelist, find_files, embed, MODEL_DIR
-TRANSLATE = {
-    "chanyin": "Vibrato",  # 颤音
-    "boxian": "Plucks",  # 拨弦
-    "shanghua": "Upward Portamento",  # 上滑音
-    "xiahua": "Downward Portamento",  # 下滑音
-    "huazhi/guazou/lianmo/liantuo": "Glissando",  # 花指\刮奏\连抹\连托
-    "yaozhi": "Tremolo",  # 摇指
-    "dianyin": "Point Note",  # 点音
-}
-CLASSES = list(TRANSLATE.keys())
-TEMP_DIR = "./__pycache__/tmp"
-SAMPLE_RATE = 44100
-HOP_LENGTH = 512
-TIME_LENGTH = 3
 def logMel(y, sr=SAMPLE_RATE):
@@ -113,12 +107,14 @@ def format_second(seconds):
 def infer(audio_path: str, log_name: str):
-    if not audio_path:
-        return "Please input an audio!", None
-    backbone = "_".join(log_name.split("_")[:-1])
-    spec = log_name.split("_")[-1]
     try:
         input = load(audio_path, converto=spec)
         dur = librosa.get_duration(path=audio_path)
         frames_per_3s = input[0].shape[1]
@@ -126,7 +122,7 @@ def infer(audio_path: str, log_name: str):
             eval_net = t_EvalNet(
                 backbone,
                 len(TRANSLATE),
-                input[0].shape[1],
                 weight_path=f"{MODEL_DIR}/{log_name}.pt",
             )
@@ -134,36 +130,41 @@ def infer(audio_path: str, log_name: str):
             eval_net = EvalNet(
                 backbone,
                 len(TRANSLATE),
-                input[0].shape[1],
                 weight_path=f"{MODEL_DIR}/{log_name}.pt",
             )
         input_size = eval_net.get_input_size()
         embeded_input = embed(input, input_size)
-        output = list(eval_net.forward(embeded_input))
     except Exception as e:
-        return f"{e}", None
-    index = 0
-    outputs = []
-    for y in output:
-        preds = list(y.T)
-        for pred in preds:
-            start = index * TIME_LENGTH / frames_per_3s
-            if start > dur:
-                break
-            to = (index + 1) * TIME_LENGTH / frames_per_3s
-            outputs.append(
-                {
-                    "Frame": f"{format_second(start)} - {format_second(to)}",
-                    "Tech": TRANSLATE[CLASSES[torch.argmax(pred).item()]],
-                }
-            )
-            index += 1
-    return os.path.basename(audio_path), pd.DataFrame(outputs)
 if __name__ == "__main__":
@@ -178,36 +179,37 @@ if __name__ == "__main__":
         gr.Interface(
             fn=infer,
             inputs=[
-                gr.Audio(label="Upload audio", type="filepath"),
-                gr.Dropdown(choices=models, label="Select a model", value=models[0]),
             ],
             outputs=[
-                gr.Textbox(label="Audio filename", show_copy_button=True),
-                gr.Dataframe(label="Frame-level guzheng playing technique detection"),
             ],
             examples=examples,
             cache_examples=False,
             flagging_mode="never",
-            title="It is suggested that the recording time should not be too long",
         )
         gr.Markdown(
-            """
-# Cite
-```bibtex
-@article{Zhou-2025,
-  author  = {Monan Zhou and Shenyang Xu and Zhaorui Liu and Zhaowen Wang and Feng Yu and Wei Li and Baoqiang Han},
-  title   = {CCMusic: An Open and Diverse Database for Chinese Music Information Retrieval Research},
-  journal = {Transactions of the International Society for Music Information Retrieval},
-  volume  = {8},
-  number  = {1},
-  pages   = {22--38},
-  month   = {Mar},
-  year    = {2025},
-  url     = {https://doi.org/10.5334/tismir.194},
-  doi     = {10.5334/tismir.194}
-}
-```"""
         )
     demo.launch()

 import numpy as np
 import pandas as pd
 import gradio as gr
 from model import EvalNet, t_EvalNet
+from utils import (
+    get_modelist,
+    find_files,
+    embed,
+    _L,
+    MODEL_DIR,
+    SAMPLE_RATE,
+    HOP_LENGTH,
+    TIME_LENGTH,
+    TRANSLATE,
+    CLASSES,
+)
 def logMel(y, sr=SAMPLE_RATE):
 def infer(audio_path: str, log_name: str):
+    status = "Success"
+    filename = result = None
     try:
+        if not audio_path:
+            raise ValueError("请输入音频!")
+        backbone = "_".join(log_name.split("_")[:-1])
+        spec = log_name.split("_")[-1]
         input = load(audio_path, converto=spec)
         dur = librosa.get_duration(path=audio_path)
         frames_per_3s = input[0].shape[1]
             eval_net = t_EvalNet(
                 backbone,
                 len(TRANSLATE),
+                frames_per_3s,
                 weight_path=f"{MODEL_DIR}/{log_name}.pt",
             )
             eval_net = EvalNet(
                 backbone,
                 len(TRANSLATE),
+                frames_per_3s,
                 weight_path=f"{MODEL_DIR}/{log_name}.pt",
             )
         input_size = eval_net.get_input_size()
         embeded_input = embed(input, input_size)
+        output = []
+        for x in embeded_input:
+            output.append(eval_net.forward(x))
+        index = 0
+        outputs = []
+        for y in output:
+            preds = list(y.T)
+            for pred in preds:
+                start = index * TIME_LENGTH / frames_per_3s
+                if start > dur:
+                    break
+                to = (index + 1) * TIME_LENGTH / frames_per_3s
+                outputs.append(
+                    {
+                        _L("帧数"): f"{format_second(start)} - {format_second(to)}",
+                        _L("技法"): TRANSLATE[CLASSES[torch.argmax(pred).item()]],
+                    }
+                )
+                index += 1
+        filename = os.path.basename(audio_path)
+        result = pd.DataFrame(outputs)
     except Exception as e:
+        status = f"{e}"
+    return status, filename, result
 if __name__ == "__main__":
         gr.Interface(
             fn=infer,
             inputs=[
+                gr.Audio(label=_L("上传录音"), type="filepath"),
+                gr.Dropdown(choices=models, label=_L("选择模型"), value=models[0]),
             ],
             outputs=[
+                gr.Textbox(label=_L("状态栏"), show_copy_button=True),
+                gr.Textbox(label=_L("音频文件名"), show_copy_button=True),
+                gr.Dataframe(label=_L("古筝演奏技法逐帧检测")),
             ],
             examples=examples,
             cache_examples=False,
             flagging_mode="never",
+            title=_L("建议录音时长不要过长"),
         )
         gr.Markdown(
+            f"# {_L('引用')}"
+            + """
+            ```bibtex
+            @article{Zhou-2025,
+                author  = {Monan Zhou and Shenyang Xu and Zhaorui Liu and Zhaowen Wang and Feng Yu and Wei Li and Baoqiang Han},
+                title   = {CCMusic: An Open and Diverse Database for Chinese Music Information Retrieval Research},
+                journal = {Transactions of the International Society for Music Information Retrieval},
+                volume  = {8},
+                number  = {1},
+                pages   = {22--38},
+                month   = {Mar},
+                year    = {2025},
+                url     = {https://doi.org/10.5334/tismir.194},
+                doi     = {10.5334/tismir.194}
+            }
+            ```"""
         )
     demo.launch()

model.py CHANGED Viewed

@@ -3,7 +3,9 @@ import torch.nn as nn
 import torch.nn.functional as F
 import torchvision.models as models
 import numpy as np
 from datasets import load_dataset
 class Interpolate(nn.Module):
@@ -79,7 +81,11 @@ class EvalNet:
         raise ValueError("[Backbone not found] Please check if --model is correct!")
     def _model_info(self, backbone: str):
-        backbone_list = load_dataset("monetjoe/cv_backbones", split="train")
         backbone_info = self._get_backbone(backbone, backbone_list)
         return (
             str(backbone_info["type"]),
@@ -228,7 +234,11 @@ class t_EvalNet:
         raise ValueError("[Backbone not found] Please check if --model is correct!")
     def _model_info(self, backbone: str):
-        backbone_list = load_dataset("monetjoe/cv_backbones", split="train")
         backbone_info = self._get_backbone(backbone, backbone_list)
         return (
             str(backbone_info["type"]),

 import torch.nn.functional as F
 import torchvision.models as models
 import numpy as np
+from modelscope.msdatasets import MsDataset
 from datasets import load_dataset
+from utils import EN_US
 class Interpolate(nn.Module):
         raise ValueError("[Backbone not found] Please check if --model is correct!")
     def _model_info(self, backbone: str):
+        backbone_list = (
+            load_dataset("monetjoe/cv_backbones", split="train")
+            if EN_US
+            else MsDataset.load("monetjoe/cv_backbones", split="v1")
+        )
         backbone_info = self._get_backbone(backbone, backbone_list)
         return (
             str(backbone_info["type"]),
         raise ValueError("[Backbone not found] Please check if --model is correct!")
     def _model_info(self, backbone: str):
+        backbone_list = (
+            load_dataset("monetjoe/cv_backbones", split="train")
+            if EN_US
+            else MsDataset.load("monetjoe/cv_backbones", split="v1")
+        )
         backbone_info = self._get_backbone(backbone, backbone_list)
         return (
             str(backbone_info["type"]),

requirements.txt CHANGED Viewed

@@ -1,5 +1,7 @@
-torch
-pillow
 librosa
 matplotlib
-torchvision

+torch==2.6.0+cu118
+-f https://download.pytorch.org/whl/torch
+torchvision==0.21.0+cu118
+-f https://download.pytorch.org/whl/torchvision
 librosa
 matplotlib
+modelscope[framework]==1.21.0

utils.py CHANGED Viewed

@@ -1,15 +1,64 @@
 import os
 import torch
 import numpy as np
 from torchvision.transforms import Compose, Resize, Normalize
-from huggingface_hub import snapshot_download
-MODEL_DIR = snapshot_download(
-    "ccmusic-database/Guzheng_Tech99",
-    cache_dir="./__pycache__",
 )
 def toCUDA(x):
     if hasattr(x, "cuda"):
         if torch.cuda.is_available():
@@ -54,6 +103,7 @@ def embed(input: list, img_size: int):
     for x in input:
         x = np.array(x).transpose(2, 0, 1)
         x = torch.from_numpy(x).repeat(3, 1, 1)
-        inputs.append(compose(x).float())
-    return toCUDA(torch.tensor(np.array(inputs)))

 import os
 import torch
+import modelscope
+import huggingface_hub
 import numpy as np
 from torchvision.transforms import Compose, Resize, Normalize
+EN_US = os.getenv("LANG") != "zh_CN.UTF-8"
+ZH2EN = {
+    "上传录音": "Upload a recording",
+    "选择模型": "Select a model",
+    "状态栏": "Status",
+    "音频文件名": "Audio filename",
+    "古筝演奏技法逐帧检测": "Frame-level guzheng playing technique detection",
+    "建议录音时长不要过长": "It is suggested that the recording time should not be too long",
+    "引用": "Cite",
+    "颤音": "Vibrato",
+    "拨弦": "Plucks",
+    "上滑音": "Upward Portamento",
+    "下滑音": "Downward Portamento",
+    "花指\刮奏\连抹\连托": "Glissando",
+    "摇指": "Tremolo",
+    "点音": "Point Note",
+    "帧数": "Frame",
+    "技法": "Tech",
+}
+MODEL_DIR = (
+    huggingface_hub.snapshot_download(
+        "ccmusic-database/Guzheng_Tech99",
+        cache_dir="./__pycache__",
+    )
+    if EN_US
+    else modelscope.snapshot_download(
+        "ccmusic-database/Guzheng_Tech99",
+        cache_dir="./__pycache__",
+    )
 )
+def _L(zh_txt: str):
+    return ZH2EN[zh_txt] if EN_US else zh_txt
+TRANSLATE = {
+    "chanyin": _L("颤音"),  # Vibrato
+    "boxian": _L("拨弦"),  # Plucks
+    "shanghua": _L("上滑音"),  # Upward Portamento
+    "xiahua": _L("下滑音"),  # Downward Portamento
+    "huazhi/guazou/lianmo/liantuo": _L("花指\刮奏\连抹\连托"),  # Glissando
+    "yaozhi": _L("摇指"),  # Tremolo
+    "dianyin": _L("点音"),  # Point Note
+}
+CLASSES = list(TRANSLATE.keys())
+TEMP_DIR = "./__pycache__/tmp"
+SAMPLE_RATE = 44100
+HOP_LENGTH = 512
+TIME_LENGTH = 3
 def toCUDA(x):
     if hasattr(x, "cuda"):
         if torch.cuda.is_available():
     for x in input:
         x = np.array(x).transpose(2, 0, 1)
         x = torch.from_numpy(x).repeat(3, 1, 1)
+        x = torch.tensor(np.array([compose(x).float()]))
+        inputs.append(toCUDA(x))
+    return inputs