Spaces:

Lguyogiro
/

Anishinaabemowin-ASR

Sleeping

App Files Files Community

Lguyogiro commited on Dec 11, 2024

Commit

59f1adb

1 Parent(s): 6b2f3c6

try adding mic inp

Browse files

Files changed (1) hide show

app.py +61 -1

app.py CHANGED Viewed

@@ -3,7 +3,9 @@ import datetime
 import logging
 import soundfile
 import streamlit as st
 from pathlib import Path
 from asr import load_model, inference
@@ -12,6 +14,26 @@ LOG_DIR = "./logs"
 DATA_DIR = "./data"
 logger = logging.getLogger(__name__)
 def upload_audio() -> Path:
     # Upload audio file
     uploaded_file = st.file_uploader("Choose a audio file(wav, mp3, flac)", type=['wav','mp3','flac'])
@@ -68,6 +90,44 @@ def main():
         st.success(f"Inference finished in {process_time}.")
         st.write(f"output: {output['text']}")
 if __name__ == "__main__":
     # Setting logger

 import logging
 import soundfile
 import streamlit as st
+from streamlit_webrtc import webrtc_streamer, AudioProcessorBase, WebRtcMode
+import numpy as np
+import pydub
 from pathlib import Path
 from asr import load_model, inference
 DATA_DIR = "./data"
 logger = logging.getLogger(__name__)
+# Define a custom audio processor to handle microphone input
+class AudioProcessor(AudioProcessorBase):
+    def __init__(self):
+        self.audio_data = []
+    def recv_audio(self, frame):
+        # Convert the audio frame to a NumPy array
+        audio_array = np.frombuffer(frame.to_ndarray(), dtype=np.int16)
+        self.audio_data.append(audio_array)
+        return frame
+    def get_audio_data(self):
+        # Combine all captured audio data
+        if self.audio_data:
+            combined = np.concatenate(self.audio_data, axis=0)
+            return combined
+        return None
 def upload_audio() -> Path:
     # Upload audio file
     uploaded_file = st.file_uploader("Choose a audio file(wav, mp3, flac)", type=['wav','mp3','flac'])
         st.success(f"Inference finished in {process_time}.")
         st.write(f"output: {output['text']}")
+    st.title("Microphone Input for ASR")
+    # Initialize the audio processor
+    audio_processor = AudioProcessor()
+    webrtc_streamer(
+        key="audio",
+        mode=WebRtcMode.SENDONLY,
+        audio_processor_factory=lambda: audio_processor,
+        media_stream_constraints={"audio": True, "video": False},
+    )
+    if st.button("Process Audio"):
+        audio_data = audio_processor.get_audio_data()
+        if audio_data is not None:
+        # Convert the NumPy array to a WAV-like audio segment
+        audio_segment = pydub.AudioSegment(
+            audio_data.tobytes(),
+            frame_rate=16000,  # Default WebRTC audio frame rate
+            sample_width=2,  # 16-bit audio
+            channels=1  # Mono
+        )
+        # Save or process audio_segment as needed
+        st.success("Audio captured successfully!")
+        # st.audio(audio_segment.export(format="wav"), format="audio/wav")
+    else:
+        st.warning("No audio data captured!")
+    if st.button("Transcribe Audio"):
+        if audio_data is not None:
+            # Perform ASR on the audio segment
+            transcription = inference(generator, audio_segment.raw_data)
+            st.text_area("Transcription", transcription["text"])
+        else:
+            st.warning("No audio data to transcribe!")
 if __name__ == "__main__":
     # Setting logger