Cyr-CK's picture
Updated app
233adb5
raw
history blame
10.6 kB
################################
### Real time prediction for real time record
###############################
import streamlit as st
import pyaudio
import wave
import torch
from transformers import Wav2Vec2ForSequenceClassification, Wav2Vec2Processor
import matplotlib.pyplot as plt
import numpy as np
import time
# Paramètres audio
CHUNK = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 1
RATE = 16000
# Interface Streamlit
st.title("Détection des émotions en temps réel")
# Boutons pour démarrer et arrêter l'enregistrement
start_button = st.button("Démarrer l'enregistrement")
stop_button = st.button("Arrêter l'enregistrement")
# Zone de visualisation des émotions en temps réel
emotion_placeholder = st.empty()
final_emotion_placeholder = st.empty()
if start_button:
st.write("Enregistrement en cours...")
audio = pyaudio.PyAudio()
stream = audio.open(format=FORMAT, channels=CHANNELS, rate=RATE, input=True, frames_per_buffer=CHUNK)
frames = []
real_time_emotions = []
while not stop_button:
data = stream.read(CHUNK)
frames.append(data)
# Traitement en temps réel (par tranche de 1 seconde)
if len(frames) >= RATE // CHUNK:
audio_segment = np.frombuffer(b''.join(frames[-(RATE // CHUNK):]), dtype=np.int16)
emotion = predict_emotion(audio_segment, output_probs=False, sampling_rate=RATE)
real_time_emotions.append(emotion)
emotion_placeholder.line_chart(real_time_emotions) # Affichage graphique des émotions
# Arrêt de l'enregistrement
stream.stop_stream()
stream.close()
audio.terminate()
# Sauvegarde de l'audio enregistré
wf = wave.open("output.wav", "wb")
wf.setnchannels(CHANNELS)
wf.setsampwidth(audio.get_sample_size(FORMAT))
wf.setframerate(RATE)
wf.writeframes(b"".join(frames))
wf.close()
# Prédiction finale sur tout l'audio enregistré
full_audio_data = np.frombuffer(b''.join(frames), dtype=np.int16)
final_emotion = predict_emotion(full_audio_data)
final_emotion_placeholder.write(f"Émotion finale prédite : {final_emotion}")
################################
### Real time prediction for uploaded audio file
###############################
# Charger le modèle wav2vec et le processeur
# # Configuration Streamlit
# st.title("Analyse des émotions en temps réel")
# uploaded_file = st.file_uploader("Choisissez un fichier audio", type=["wav", "mp3"])
# if uploaded_file is not None:
# # Charger et rééchantillonner l'audio
# audio, sr = librosa.load(uploaded_file, sr=16000)
# # Paramètres de la fenêtre glissante
# window_size = 1 # en secondes
# hop_length = 0.5 # en secondes
# # Créer un graphique en temps réel
# fig, ax = plt.subplots()
# lines = [ax.plot([], [], label=emotion)[0] for emotion in emotions]
# ax.set_ylim(0, 1)
# ax.set_xlim(0, len(audio) / sr)
# ax.set_xlabel("Temps (s)")
# ax.set_ylabel("Probabilité")
# ax.legend()
# chart = st.pyplot(fig)
# # Traitement par fenêtre glissante
# for i in range(0, len(audio), int(hop_length * sr)):
# chunk = audio[i:i + int(window_size * sr)]
# if len(chunk) < int(window_size * sr):
# break
# emotion_scores = predict_emotion(chunk, output_probs=False, sampling_rate=RATE)
# # Mettre à jour le graphique
# for emotion, line in zip(emotions, lines):
# xdata = line.get_xdata().tolist()
# ydata = line.get_ydata().tolist()
# xdata.append(i / sr)
# ydata.append(emotion_scores[emotion])
# line.set_data(xdata, ydata)
# ax.relim()
# ax.autoscale_view()
# chart.pyplot(fig)
# st.success("Analyse terminée !")
############################################
### Progress bar
############################################
with st.status("Downloading data...", expanded=True) as status:
st.write("Searching for data...")
time.sleep(2)
st.write("Found URL.")
time.sleep(1)
st.write("Downloading data...")
time.sleep(1)
status.update(
label="Download complete!", state="complete", expanded=False
)
st.button("Rerun")
############################################
### Time duration estimation
############################################
progress_bar = st.progress(0)
time_placeholder = st.empty()
total_time = 10 # Total estimated time in seconds
for i in range(total_time):
# Update progress bar
progress_bar.progress((i + 1) / total_time)
# Update time estimation
remaining_time = total_time - i - 1
time_placeholder.text(f"Estimated time remaining: {remaining_time} seconds")
# Simulate task progress
time.sleep(1)
############################################
### Audio file noise reduction
############################################
from pydub import AudioSegment
import noisereduce as nr
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
# Fonction de réduction de bruit
def reduce_noise(audio_data, sr):
reduced_noise = nr.reduce_noise(y=audio_data, sr=sr)
return reduced_noise
# Chargement du modèle wav2vec
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")
# Interface Streamlit
st.title("Application de transcription audio avec réduction de bruit")
uploaded_file = st.file_uploader("Choisissez un fichier audio .wav", type="wav")
if uploaded_file is not None:
# Chargement et prétraitement de l'audio
audio = AudioSegment.from_wav(uploaded_file)
audio_array = np.array(audio.get_array_of_samples())
# Réduction de bruit
reduced_noise_audio = reduce_noise(audio_array, audio.frame_rate)
# Traitement avec wav2vec
input_values = processor(reduced_noise_audio, sampling_rate=audio.frame_rate, return_tensors="pt").input_values
with torch.no_grad():
logits = model(input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)[0]
st.audio(uploaded_file, format="audio/wav")
st.write("Transcription:")
st.write(transcription)
############################################
### Choix des émotions
############################################
# options = ['Sadness','Anger', 'Disgust', 'Fear', 'Surprise', 'Joy','Neutral']
# selected_options = st.multiselect('What emotions do you want to be displayed', options, default=['Joy', 'Anger','Neutral])
############################################
### Transcription Speech2Text
############################################
# # Fonction pour transcrire l'audio
# def transcribe_audio(audio):
# # Préparer les données d'entrée pour le modèle
# input_values = processor(audio, sampling_rate=16000, return_tensors="pt").input_values
# # Passer les données dans le modèle pour obtenir les logits
# with torch.no_grad():
# logits = model(input_values).logits
# # Décoder les prédictions en texte
# predicted_ids = torch.argmax(logits, dim=-1)
# transcription = processor.batch_decode(predicted_ids)[0]
# return transcription
# # Charger et transcrire l'audio
# # audio, rate = load_audio(audio_file_path) # (re)chargement de l'audio si nécessaire
# transcription = transcribe_audio(audio)
# # Afficher la transcription
# print("Transcription :", transcription)
############################################
### Feedback
############################################
import pandas as pd
import os
# Initialisation du fichier CSV
csv_file = "predictions/feedback.csv"
# Vérifier si le fichier CSV existe, sinon le créer avec des colonnes appropriées
if not os.path.exists(csv_file):
df = pd.DataFrame(columns=["filepath", "prediction", "feedback"])
df.to_csv(csv_file, index=False)
# Charger les données existantes du CSV
df = pd.read_csv(csv_file)
# Interface Streamlit
st.title("Predicted emotion feedback")
# Simuler une prédiction pour l'exemple (remplacez par votre modèle réel)
audio_file_name = "example_audio.wav"
predicted_emotion = "Joie" # Exemple de prédiction
st.write(f"Fichier audio : {audio_file_name}")
st.write(f"Émotion détectée : {predicted_emotion}")
# Formulaire de feedback
with st.form("feedback_form"):
st.write("Est-ce la bonne émotion qui a été détectée ? Cochez la réelle émotion.")
feedback = st.selectbox("Votre réponse :", ['Sadness','Anger', 'Disgust', 'Fear', 'Surprise', 'Joy', 'Neutral'])
submit_button = st.form_submit_button("Soumettre")
st.write("En cliquant sur ce bouton, vous acceptez que votre audio soit sauvegardé dans notre base de données.")
if submit_button:
# Ajouter le feedback au DataFrame
new_entry = {"filepath": audio_file_name, "prediction": predicted_emotion, "feedback": feedback}
df = df.append(new_entry, ignore_index=True)
# Sauvegarder les données mises à jour dans le fichier CSV
df.to_csv(csv_file, index=False)
# Sauvegarder le fichier audio
with open("predictions/data", "wb") as f:
f.write(uploaded_file.getbuffer())
# Confirmation pour l'utilisateur
st.success("Merci pour votre retour ! Vos données ont été sauvegardées.")
# Afficher les données sauvegardées (optionnel)
# st.write("Données collectées jusqu'à présent :")
# st.dataframe(df)
############################################
### Predict proba (to replace in predict.py)
############################################
import librosa
def predict_emotion_probabilities(audio_path):
waveform, _ = librosa.load(audio_path, sr=16000)
input_values = processor(waveform, return_tensors="pt", sampling_rate=16000).input_values
input_values = input_values.to(device)
with torch.no_grad():
outputs = model(input_values)
# Appliquer softmax pour obtenir des probabilités
probabilities = torch.nn.functional.softmax(outputs.logits, dim=-1)
# Convertir en numpy array et prendre le premier (et seul) élément
probabilities = probabilities[0].detach().cpu().numpy()
# Créer un dictionnaire associant chaque émotion à sa probabilité
emotion_probabilities = {emotion: prob for emotion, prob in zip(emotion_labels, probabilities)}
return emotion_probabilities