Spaces:

Garvitj
/

emotion-llm

Sleeping

Garvitj commited on Jan 17

Commit

fee0512

verified ·

1 Parent(s): c5cc96b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -44,15 +44,17 @@ def predict_text_emotion(text):
 # Extract audio features and predict emotion
 def extract_audio_features(audio_data, sample_rate):
     if not isinstance(audio_data, np.ndarray):
-        audio_data = np.array(audio_data)
-    mfcc = np.mean(librosa.feature.mfcc(y=audio_data, sr=sample_rate, n_mfcc=704).T, axis=0)
     features = np.expand_dims(mfcc, axis=0)
-    features = np.reshape(features, (1, 704))
     return features
 def predict_audio_emotion(audio_data, sample_rate):
     features = extract_audio_features(audio_data, sample_rate)
     prediction = audio_model.predict(features)
     emotion_index = np.argmax(prediction)
     return emotion_mapping[emotion_index]
@@ -115,7 +117,7 @@ def transcribe_and_predict_video(video_path):
     image_emotion = process_video(video_path)
     # Predict emotion from audio (sound-based)
-    sample_rate, audio_data = librosa.load(audio_file, sr=None)
     audio_emotion = predict_audio_emotion(audio_data, sample_rate)
     # Combine detected emotions for final output (majority voting can be implemented)

 # Extract audio features and predict emotion
 def extract_audio_features(audio_data, sample_rate):
     if not isinstance(audio_data, np.ndarray):
+        audio_data = np.array(audio_data, dtype=np.float32)  # Ensure it is a NumPy array with float type
+    else:
+        audio_data = audio_data.astype(np.float32)  # Convert to float32
+    mfcc = np.mean(librosa.feature.mfcc(y=audio_data, sr=sample_rate, n_mfcc=40).T, axis=0)
     features = np.expand_dims(mfcc, axis=0)
     return features
 def predict_audio_emotion(audio_data, sample_rate):
     features = extract_audio_features(audio_data, sample_rate)
+    features = np.reshape(features, (1, 40))  # Match model expected input
     prediction = audio_model.predict(features)
     emotion_index = np.argmax(prediction)
     return emotion_mapping[emotion_index]
     image_emotion = process_video(video_path)
     # Predict emotion from audio (sound-based)
+    audio_data, sample_rate = librosa.load(audio_file, sr=None)
     audio_emotion = predict_audio_emotion(audio_data, sample_rate)
     # Combine detected emotions for final output (majority voting can be implemented)