Spaces:

haepada
/

roots

Sleeping

App Files Files Community

haepada commited on Nov 6, 2024

Commit

d7b7fbe

verified ·

1 Parent(s): 4991658

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -9

app.py CHANGED Viewed

@@ -97,24 +97,25 @@ os.makedirs("generated_images", exist_ok=True)
 # 음성 분석 관련 함수들
 def calculate_baseline_features(audio_data):
-    """기준점 음성 특성 분석"""
     try:
         if isinstance(audio_data, tuple):
             sr, y = audio_data
         elif isinstance(audio_data, str):
             y, sr = librosa.load(audio_data, sr=16000)
         else:
             print("Unsupported audio format")
             return None
-        # 음성이 없는 경우 처리
         if len(y) == 0:
             print("Empty audio data")
             return None
         features = {
             "energy": float(np.mean(librosa.feature.rms(y=y))),
-            "tempo": float(librosa.beat.tempo(y=y, sr=sr)[0]),
             "pitch": float(np.mean(librosa.feature.zero_crossing_rate(y=y))),
             "volume": float(np.mean(np.abs(y))),
             "mfcc": librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13).mean(axis=1).tolist()
@@ -205,13 +206,13 @@ def map_acoustic_to_emotion(features, baseline_features=None):
     return emotions
 def analyze_voice(audio_data, state):
-    """통합 음성 분석"""
     if audio_data is None:
         return state, "음성을 먼저 녹음해주세요.", "", "", ""
     try:
-        # 오디오 데이터 처리
-        sr, y = audio_data  # 직접 튜플 언패킹
         if len(y) == 0:
             return state, "음성이 감지되지 않았습니다.", "", "", ""
@@ -219,11 +220,12 @@ def analyze_voice(audio_data, state):
         # 음향학적 특성 분석
         acoustic_features = {
             "energy": float(np.mean(librosa.feature.rms(y=y))),
-            "tempo": float(librosa.beat.tempo(y=y, sr=sr)[0]),
             "pitch": float(np.mean(librosa.feature.zero_crossing_rate(y=y))),
             "volume": float(np.mean(np.abs(y)))
         }
         # 음성 인식
         if speech_recognizer:
             try:
@@ -401,7 +403,8 @@ def create_interface():
                     label="축원 문장 녹음하기",
                     sources=["microphone"],
                     type="numpy",
-                    streaming=False
                 )
                 set_baseline_btn = gr.Button("기준점 설정 완료", variant="primary")
                 baseline_status = gr.Markdown("")
@@ -441,7 +444,8 @@ def create_interface():
                             label="소원을 나누고 싶은 마음을 말해주세요",
                             sources=["microphone"],
                             type="numpy",
-                            streaming=False
                         )
                         with gr.Row():
                             clear_btn = gr.Button("녹음 지우기", variant="secondary")
@@ -515,6 +519,7 @@ def create_interface():
             try:
                 sr, y = audio
                 features = calculate_baseline_features((sr, y))
                 if features:
                     current_state = {**current_state, "baseline_features": features}
@@ -634,6 +639,7 @@ if __name__ == "__main__":
     demo = create_interface()
     demo.launch(
         debug=True,
         server_name="0.0.0.0",
         server_port=7860
     )

 # 음성 분석 관련 함수들
 def calculate_baseline_features(audio_data):
     try:
         if isinstance(audio_data, tuple):
             sr, y = audio_data
+            # 데이터 타입을 float32로 변환
+            y = y.astype(np.float32)
         elif isinstance(audio_data, str):
             y, sr = librosa.load(audio_data, sr=16000)
         else:
             print("Unsupported audio format")
             return None
         if len(y) == 0:
             print("Empty audio data")
             return None
         features = {
             "energy": float(np.mean(librosa.feature.rms(y=y))),
+            # tempo 함수 업데이트
+            "tempo": float(librosa.feature.tempo(y=y, sr=sr)[0]),
             "pitch": float(np.mean(librosa.feature.zero_crossing_rate(y=y))),
             "volume": float(np.mean(np.abs(y))),
             "mfcc": librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13).mean(axis=1).tolist()
     return emotions
 def analyze_voice(audio_data, state):
     if audio_data is None:
         return state, "음성을 먼저 녹음해주세요.", "", "", ""
     try:
+        sr, y = audio_data
+        # 데이터 타입을 float32로 변환
+        y = y.astype(np.float32)
         if len(y) == 0:
             return state, "음성이 감지되지 않았습니다.", "", "", ""
         # 음향학적 특성 분석
         acoustic_features = {
             "energy": float(np.mean(librosa.feature.rms(y=y))),
+            "tempo": float(librosa.feature.tempo(y=y, sr=sr)[0]),
             "pitch": float(np.mean(librosa.feature.zero_crossing_rate(y=y))),
             "volume": float(np.mean(np.abs(y)))
         }
         # 음성 인식
         if speech_recognizer:
             try:
                     label="축원 문장 녹음하기",
                     sources=["microphone"],
                     type="numpy",
+                    streaming=False,
+                    preload=True  # 추가
                 )
                 set_baseline_btn = gr.Button("기준점 설정 완료", variant="primary")
                 baseline_status = gr.Markdown("")
                             label="소원을 나누고 싶은 마음을 말해주세요",
                             sources=["microphone"],
                             type="numpy",
+                            streaming=False,
+                            preload=True  # 추가
                         )
                         with gr.Row():
                             clear_btn = gr.Button("녹음 지우기", variant="secondary")
             try:
                 sr, y = audio
+                y = y.astype(np.float32)  # float32로 변환
                 features = calculate_baseline_features((sr, y))
                 if features:
                     current_state = {**current_state, "baseline_features": features}
     demo = create_interface()
     demo.launch(
         debug=True,
+        share=True,  # 추가
         server_name="0.0.0.0",
         server_port=7860
     )