Spaces:

reab5555
/

Multimodal-Behavioral-Anomalies-Detection

Running

App Files Files Community

reab5555 commited on Jul 28, 2024

Commit

cd6c09b

verified ·

1 Parent(s): 0c437f5

Update voice_analysis.py

Browse files

Files changed (1) hide show

voice_analysis.py +15 -18

voice_analysis.py CHANGED Viewed

@@ -1,35 +1,33 @@
 import numpy as np
 import librosa
 from sklearn.cluster import DBSCAN
-from pydub import AudioSegment
-def extract_voice_features(audio_path, segment_duration=1000):
     # Load the audio file
     y, sr = librosa.load(audio_path)
     # Extract MFCC features
     mfccs = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)
-    # Segment the MFCCs
-    segment_length = int(segment_duration * sr / 1000)
-    num_segments = len(y) // segment_length
     segments = []
-    for i in range(num_segments):
-        start = i * segment_length
-        end = start + segment_length
         segment = mfccs[:, start:end]
         segments.append(np.mean(segment, axis=1))
     return np.array(segments)
-def remove_nan_features(features):
-    return features[~np.isnan(features).any(axis=1)]
 def cluster_voices(features):
-    # Remove NaN values
-    features = remove_nan_features(features)
     if len(features) < 2:
         print("Not enough voice segments for clustering. Assigning all to one cluster.")
         return np.zeros(len(features), dtype=int)
@@ -47,9 +45,8 @@ def get_most_frequent_voice(features, clusters):
     largest_cluster = max(set(clusters), key=list(clusters).count)
     return features[clusters == largest_cluster]
-def process_audio(audio_path, segment_duration=1000):
-    features = extract_voice_features(audio_path, segment_duration)
-    features = remove_nan_features(features)
     clusters = cluster_voices(features)
     most_frequent_voice = get_most_frequent_voice(features, clusters)
     return most_frequent_voice, features, clusters

 import numpy as np
 import librosa
 from sklearn.cluster import DBSCAN
+def extract_voice_features(audio_path, fps, video_duration):
     # Load the audio file
     y, sr = librosa.load(audio_path)
+    # Calculate the number of samples per frame
+    samples_per_frame = int(sr / fps)
+    # Calculate the total number of frames
+    total_frames = int(fps * video_duration)
     # Extract MFCC features
     mfccs = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)
+    # Segment the MFCCs to align with video frames
     segments = []
+    for i in range(total_frames):
+        start = i * samples_per_frame
+        end = start + samples_per_frame
+        if end > mfccs.shape[1]:
+            break
         segment = mfccs[:, start:end]
         segments.append(np.mean(segment, axis=1))
     return np.array(segments)
 def cluster_voices(features):
     if len(features) < 2:
         print("Not enough voice segments for clustering. Assigning all to one cluster.")
         return np.zeros(len(features), dtype=int)
     largest_cluster = max(set(clusters), key=list(clusters).count)
     return features[clusters == largest_cluster]
+def process_audio(audio_path, fps, video_duration):
+    features = extract_voice_features(audio_path, fps, video_duration)
     clusters = cluster_voices(features)
     most_frequent_voice = get_most_frequent_voice(features, clusters)
     return most_frequent_voice, features, clusters