cantonese-call-transcriber

Running

App Files Files Community

terry-li-hm commited on Sep 6, 2024

Commit

9ecefd1

1 Parent(s): 09b9a40

Update

Browse files

Files changed (1) hide show

app.py +15 -22

app.py CHANGED Viewed

@@ -4,14 +4,17 @@ import base64
 import io
 import os
 import re
 import gradio as gr
 import librosa
 import numpy as np
 import spaces
 import torch
 import torchaudio
 from funasr import AutoModel
 model = "FunAudioLLM/SenseVoiceSmall"
 model = AutoModel(
@@ -145,7 +148,6 @@ def format_str_v3(s):
 @spaces.GPU
 def model_inference(input_wav, language, fs=16000):
-    # task_abbr = {"Speech Recognition": "ASR", "Rich Text Transcription": ("ASR", "AED", "SER")}
     language_abbr = {
         "auto": "auto",
         "zh": "zh",
@@ -156,42 +158,33 @@ def model_inference(input_wav, language, fs=16000):
         "nospeech": "nospeech",
     }
-    # task = "Speech Recognition" if task is None else task
     language = "auto" if len(language) < 1 else language
     selected_language = language_abbr[language]
-    # selected_task = task_abbr.get(task)
-    # print(f"input_wav: {type(input_wav)}, {input_wav[1].shape}, {input_wav}")
     if isinstance(input_wav, tuple):
         fs, input_wav = input_wav
         input_wav = input_wav.astype(np.float32) / np.iinfo(np.int16).max
         if len(input_wav.shape) > 1:
             input_wav = input_wav.mean(-1)
         if fs != 16000:
-            print(f"audio_fs: {fs}")
             resampler = torchaudio.transforms.Resample(fs, 16000)
             input_wav_t = torch.from_numpy(input_wav).to(torch.float32)
             input_wav = resampler(input_wav_t[None, :])[0, :].numpy()
-    merge_vad = True  # False if selected_task == "ASR" else True
-    print(f"language: {language}, merge_vad: {merge_vad}")
-    text = model.generate(
-        input=input_wav,
-        cache={},
-        language=language,
-        use_itn=True,
-        batch_size_s=500,
-        merge_vad=merge_vad,
-    )
-    print(text)
-    text = text[0]["text"]
-    text = format_str_v3(text)
-    print(text)
-    return text
 audio_examples = [

 import io
 import os
 import re
+import tempfile
 import gradio as gr
 import librosa
 import numpy as np
+import soundfile as sf
 import spaces
 import torch
 import torchaudio
 from funasr import AutoModel
+from sv import clean_and_emoji_annotate_speech, process_audio
 model = "FunAudioLLM/SenseVoiceSmall"
 model = AutoModel(
 @spaces.GPU
 def model_inference(input_wav, language, fs=16000):
     language_abbr = {
         "auto": "auto",
         "zh": "zh",
         "nospeech": "nospeech",
     }
     language = "auto" if len(language) < 1 else language
     selected_language = language_abbr[language]
+    # Handle input_wav format
     if isinstance(input_wav, tuple):
         fs, input_wav = input_wav
         input_wav = input_wav.astype(np.float32) / np.iinfo(np.int16).max
         if len(input_wav.shape) > 1:
             input_wav = input_wav.mean(-1)
         if fs != 16000:
             resampler = torchaudio.transforms.Resample(fs, 16000)
             input_wav_t = torch.from_numpy(input_wav).to(torch.float32)
             input_wav = resampler(input_wav_t[None, :])[0, :].numpy()
+    # Save the input audio to a temporary file
+    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as temp_audio:
+        sf.write(temp_audio.name, input_wav, 16000)
+        temp_audio_path = temp_audio.name
+    try:
+        # Process the audio using the function from sv.py
+        result = process_audio(temp_audio_path, language=selected_language)
+    finally:
+        # Remove the temporary audio file
+        os.remove(temp_audio_path)
+    return result
 audio_examples = [