Spaces:

jdalfonso
/

SISE-ULTIMATE-CHALLENGE

Sleeping

App Files Files Community

Marina Kpamegan commited on Mar 13

Commit

87e9667

1 Parent(s): 103eb2f

test model for front end

Browse files

Files changed (6) hide show

src/config.py +4 -0
src/predict.py +2 -3
src/test_backend.ipynb +63 -0
src/train.py +2 -2
src/utils/dataset.py +1 -1
views/studio.py +18 -33

src/config.py CHANGED Viewed

@@ -19,3 +19,7 @@ DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 # Modèle Wav2Vec2
 MODEL_NAME = "facebook/wav2vec2-large-xlsr-53-french"

 # Modèle Wav2Vec2
 MODEL_NAME = "facebook/wav2vec2-large-xlsr-53-french"
+BASE_DIR = os.path.dirname(os.path.abspath(__file__))
+BEST_MODEL_NAME = os.path.join(BASE_DIR, "..", "best_model.pth")  # Monte d'un niveau pour aller à la racine

src/predict.py CHANGED Viewed

@@ -5,14 +5,13 @@ import librosa
 import numpy as np
 from src.model.emotion_classifier import EmotionClassifier
 from src.utils.preprocessing import collate_fn
-from src.config import DEVICE, NUM_LABELS
 import os
 # Charger le modèle entraîné
-MODEL_PATH = "acc_model.pth"
 feature_dim = 40  # Nombre de MFCCs utilisés
 model = EmotionClassifier(feature_dim, NUM_LABELS).to(DEVICE)
-model.load_state_dict(torch.load(MODEL_PATH, map_location=DEVICE))
 model.eval()  # Mode évaluation
 # Fonction pour prédire l’émotion d’un fichier audio

 import numpy as np
 from src.model.emotion_classifier import EmotionClassifier
 from src.utils.preprocessing import collate_fn
+from src.config import DEVICE, NUM_LABELS, BEST_MODEL_NAME
 import os
 # Charger le modèle entraîné
 feature_dim = 40  # Nombre de MFCCs utilisés
 model = EmotionClassifier(feature_dim, NUM_LABELS).to(DEVICE)
+model.load_state_dict(torch.load(BEST_MODEL_NAME, map_location=DEVICE))
 model.eval()  # Mode évaluation
 # Fonction pour prédire l’émotion d’un fichier audio

src/test_backend.ipynb ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Transcription : tu as encore oublié de faire le dossier c'était hurgent nom de chien\n"
+     ]
+    }
+   ],
+   "source": [
+    "# make a transcription from audio file\n",
+    "from model.transcriber import transcribe_audio\n",
+    "import os\n",
+    "\n",
+    "base_path = os.path.abspath(os.path.join(\"data\"))\n",
+    "audio_path = os.path.join(base_path, \"colere\", \"c1af.wav\") # path to audio file\n",
+    "texte = transcribe_audio(audio_path)\n",
+    "print(f\"Transcription : {texte}\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from predict import predict_emotion\n",
+    "\n",
+    "base_path = os.path.abspath(os.path.join(os.path.dirname(__file__), \"data\"))\n",
+    "audio_file = os.path.join(base_path, \"colere\", \"c1ac.wav\")\n",
+    "emotion = predict_emotion(audio_file)\n",
+    "print(f\"🎤 L'émotion prédite est : {emotion}\")"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": ".venv",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.11.5"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}

src/train.py CHANGED Viewed

@@ -6,7 +6,7 @@ from sklearn.metrics import accuracy_score
 from utils.dataset import load_audio_data
 from utils.preprocessing import preprocess_audio, prepare_features, collate_fn
 from model.emotion_classifier import EmotionClassifier
-from src.config import DEVICE, NUM_LABELS
 import os
 # Charger les données et les séparer en train / test
@@ -51,7 +51,7 @@ def train_classifier(classifier, train_loader, test_loader, epochs=20):
         if train_acc > best_accuracy:
             best_accuracy = train_acc
-            torch.save(classifier.state_dict(), "best_model.pth")
             print(f"✔️ Nouveau meilleur modèle sauvegardé ! Accuracy: {best_accuracy:.4f}")
         print(f"📢 Epoch {epoch+1}/{epochs} - Loss: {total_loss:.4f} - Accuracy: {train_acc:.4f}")

 from utils.dataset import load_audio_data
 from utils.preprocessing import preprocess_audio, prepare_features, collate_fn
 from model.emotion_classifier import EmotionClassifier
+from config import DEVICE, NUM_LABELS, BEST_MODEL_NAME
 import os
 # Charger les données et les séparer en train / test
         if train_acc > best_accuracy:
             best_accuracy = train_acc
+            torch.save(classifier.state_dict(), BEST_MODEL_NAME)
             print(f"✔️ Nouveau meilleur modèle sauvegardé ! Accuracy: {best_accuracy:.4f}")
         print(f"📢 Epoch {epoch+1}/{epochs} - Loss: {total_loss:.4f} - Accuracy: {train_acc:.4f}")

src/utils/dataset.py CHANGED Viewed

@@ -6,7 +6,7 @@ import pandas as pd
 import os
 from datasets import Dataset, DatasetDict
 import pandas as pd
-from config import LABELS
 def load_audio_data(data_dir):
     data = []

 import os
 from datasets import Dataset, DatasetDict
 import pandas as pd
+from src.config import LABELS
 def load_audio_data(data_dir):
     data = []

views/studio.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import streamlit as st
 from st_audiorec import st_audiorec
-# from src.model.transcriber import transcribe_audio
 def studio():
@@ -23,7 +23,7 @@ def studio():
     with tab1:
         st.header("⬆️ Upload Audio Record")
         st.write("Here you can upload a pre-recorded audio.")
-        audio_file = st.file_uploader("Upload an audio file", type=["wav", "mp3", "ogg"])
         if "audio_file" not in st.session_state:
             st.session_state.audio_file = None
@@ -52,6 +52,7 @@ def studio():
             st.success("Audio recorded successfully !")
             st.session_state.audio_file = audio_file
         # Boutons pour démarrer et arrêter l'enregistrement
         # start_button = st.button("Démarrer l'enregistrement")
         # stop_button = st.button("Arrêter l'enregistrement")
@@ -103,24 +104,7 @@ def studio():
         #     emotion_display.write(f"Émotion détectée : {emotion_prediction}")
         #     # time.sleep(0.1)
-        # audio.terminate()
             # stream = audio.open(format=FORMAT, channels=CHANNELS, rate=RATE, input=True, frames_per_buffer=CHUNK)
@@ -159,6 +143,7 @@ def studio():
             # final_emotion_placeholder.write(f"Émotion finale prédite : {final_emotion}")
     with tab3:
         st.header("📝 Speech2Text Transcription")
@@ -168,24 +153,24 @@ def studio():
         ############################# A décommenté quand ce sera débogué
         if st.button("Transcribe", key="transcribe-button"):
-        #     # Fonction pour transcrire l'audio
-            # transcription = transcribe_audio(st.audio)
-        #     # Charger et transcrire l'audio
-        #     # audio, rate = load_audio(audio_file_path) # (re)chargement de l'audio si nécessaire
-            # transcription = transcribe_audio(audio_file, sampling_rate=16000)
-        #     # Afficher la transcription
-            # st.write("Transcription :", transcription)
             st.success("Audio registered successfully.")
-        #     if save:
-        #         file_path = "transcript.txt"
-        #         # Write the text to the file
-        #         with open(file_path, "w") as file:
-        #             file.write(transcription)
-        #         st.success(f"Text saved to {file_path}")

 import streamlit as st
 from st_audiorec import st_audiorec
+from src.model.transcriber import transcribe_audio
 def studio():
     with tab1:
         st.header("⬆️ Upload Audio Record")
         st.write("Here you can upload a pre-recorded audio.")
+        audio_file = st.file_uploader("Upload an audio file", type=["wav"])
         if "audio_file" not in st.session_state:
             st.session_state.audio_file = None
             st.success("Audio recorded successfully !")
             st.session_state.audio_file = audio_file
+##############################################"realtime audio record"##############################################
         # Boutons pour démarrer et arrêter l'enregistrement
         # start_button = st.button("Démarrer l'enregistrement")
         # stop_button = st.button("Arrêter l'enregistrement")
         #     emotion_display.write(f"Émotion détectée : {emotion_prediction}")
         #     # time.sleep(0.1)
+        # audio.terminate(
             # stream = audio.open(format=FORMAT, channels=CHANNELS, rate=RATE, input=True, frames_per_buffer=CHUNK)
             # final_emotion_placeholder.write(f"Émotion finale prédite : {final_emotion}")
+##############################################"end realtime audio record"##############################################
     with tab3:
         st.header("📝 Speech2Text Transcription")
         ############################# A décommenté quand ce sera débogué
         if st.button("Transcribe", key="transcribe-button"):
+            # Fonction pour transcrire l'audio
+            transcription = transcribe_audio(st.audio)
+            # Charger et transcrire l'audio
+            # audio, rate = load_audio(audio_file_path) # (re)chargement de l'audio si nécessaire
+            transcription = transcribe_audio(audio_file, sampling_rate=16000)
+            # Afficher la transcription
+            st.write("Transcription :", transcription)
             st.success("Audio registered successfully.")
+            if save:
+                file_path = "transcript.txt"
+                # Write the text to the file
+                with open(file_path, "w") as file:
+                    file.write(transcription)
+                st.success(f"Text saved to {file_path}")