xaman4

Running

App Files Files Community

salomonsky commited on Jan 24, 2024

Commit

188e3eb

verified ·

1 Parent(s): 68c7498

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -15

app.py CHANGED Viewed

@@ -9,7 +9,8 @@ from huggingface_hub import InferenceClient
 from streamlit_mic_recorder import mic_recorder
 import wave
 import webrtcvad
-import sounddevice as sd
 if "history" not in st.session_state:
     st.session_state.history = []
@@ -104,17 +105,12 @@ def display_recognition_result(audio_text, output, audio_file):
 def voice_activity_detection(audio_data):
     return vad.is_speech(audio_data, sample_rate)
-def audio_callback(indata, frames, time, status):
-    assert frames == block_size
-    audio_data = indata[::downsample, mapping]
-    audio_data = map(lambda x: (x + 1) / 2, audio_data)
-    audio_data = np.fromiter(audio_data, np.float16)
-    audio_data = audio_data.tobytes()
-    detection = voice_activity_detection(audio_data)
-    print(detection)
 def start_stream():
-    stream.start()
 class Threader(threading.Thread):
     def __init__(self, *args, **kwargs):
@@ -139,7 +135,7 @@ if __name__ == "__main__":
         sample_rate = audio["sample_rate"]
         num_channels = 1
-        with wave.open(temp_audio_file_path, 'w') as wave_file:
             wave_file.setnchannels(num_channels)
             wave_file.setsampwidth(sample_width)
             wave_file.setframerate(sample_rate)
@@ -149,11 +145,10 @@ if __name__ == "__main__":
     channels = [1]
     mapping = [c - 1 for c in channels]
-    device_info = sd.query_devices(16, 'input')
-    sample_rate = int(device_info['default_samplerate'])
     interval_size = 10
     downsample = 1
     block_size = int(sample_rate * interval_size / 1000)
     Threader(name='mythread')
-    st.button("Detener Stream")

 from streamlit_mic_recorder import mic_recorder
 import wave
 import webrtcvad
+temp_audio_file_path = "./output.wav"
 if "history" not in st.session_state:
     st.session_state.history = []
 def voice_activity_detection(audio_data):
     return vad.is_speech(audio_data, sample_rate)
 def start_stream():
+    with wave.open(temp_audio_file_path, 'rb') as wave_file:
+        frames = wave_file.readframes(wave_file.getnframes())
+        audio_data = np.frombuffer(frames, dtype=np.int16)
+        detection = voice_activity_detection(audio_data)
+        print(detection)
 class Threader(threading.Thread):
     def __init__(self, *args, **kwargs):
         sample_rate = audio["sample_rate"]
         num_channels = 1
+        with wave.open(temp_audio_file_path, 'wb') as wave_file:
             wave_file.setnchannels(num_channels)
             wave_file.setsampwidth(sample_width)
             wave_file.setframerate(sample_rate)
     channels = [1]
     mapping = [c - 1 for c in channels]
+    sample_rate = int(sr.AudioFile(temp_audio_file_path).samplerate)
     interval_size = 10
     downsample = 1
     block_size = int(sample_rate * interval_size / 1000)
     Threader(name='mythread')
+    st.button("Detener Stream")