haepada commited on
Commit
6045e4a
·
verified ·
1 Parent(s): 9d47e7f

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +152 -87
app.py CHANGED
@@ -5,20 +5,29 @@ from transformers import pipeline
5
  from datetime import datetime
6
  import os
7
 
8
- # 전역 변수 설정
9
- SAMPLE_RATE = 16000 # 샘플링 레이트 고정
10
- N_MELS = 64 # mel 필터 수 조정
11
-
12
  # AI 모델 초기화
13
- text_analyzer = pipeline("sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment")
 
 
 
 
 
 
 
 
 
 
 
14
 
15
  def create_interface():
16
  with gr.Blocks(theme=gr.themes.Soft()) as app:
17
- # 상태 변수
18
  state = gr.State({
19
- "reflections": [],
20
  "user_name": "",
21
- "analyses": []
 
 
 
22
  })
23
 
24
  # 헤더
@@ -26,26 +35,20 @@ def create_interface():
26
  user_display = gr.Markdown("")
27
 
28
  with gr.Tabs() as tabs:
29
- # 입장
30
- with gr.Tab("입장") as intro_tab:
31
- gr.Markdown("""
32
- # 디지털 굿판에 오신 것을 환영합니다
33
- 온천천의 디지털 치유 공간으로 들어가보세요.
34
- """)
35
  name_input = gr.Textbox(label="이름을 알려주세요")
36
  start_btn = gr.Button("여정 시작하기")
37
 
38
- # 청신
39
- with gr.Tab("청신") as cleansing_tab:
40
  with gr.Row():
41
- # 음악 플레이어
42
  audio = gr.Audio(
43
  value="assets/main_music.mp3",
44
  type="filepath",
45
- label="온천천의 소리",
46
- interactive=True
47
  )
48
-
49
  with gr.Column():
50
  reflection_input = gr.Textbox(
51
  label="현재 순간의 감상을 적어주세요",
@@ -53,91 +56,147 @@ def create_interface():
53
  )
54
  save_btn = gr.Button("감상 저장하기")
55
  reflections_display = gr.Dataframe(
56
- headers=["시간", "감상", "감정"],
57
  label="기록된 감상들"
58
  )
59
 
60
- # 기원
61
- with gr.Tab("기원") as prayer_tab:
 
62
  with gr.Row():
 
63
  voice_input = gr.Audio(
64
  label="나누고 싶은 이야기를 들려주세요",
65
  sources=["microphone"],
66
  type="filepath"
67
  )
68
 
 
69
  with gr.Column():
70
- text_output = gr.Textbox(label="인식된 텍스트")
71
- emotion_output = gr.Textbox(label="감정 분석")
72
- audio_features = gr.JSON(label="음성 특성 분석")
73
-
74
- # 송신
75
- with gr.Tab("송신") as sharing_tab:
76
- prompt_display = gr.Textbox(label="생성된 프롬프트")
77
- gallery = gr.Gallery(label="시각화 결과")
 
 
 
 
 
 
 
78
 
79
- # 함수 정의
80
- def start_journey(name):
81
- """여정 시작"""
82
- if name.strip():
83
- welcome_text = f"# 환영합니다, {name}님"
84
- return welcome_text, gr.update(selected="청신")
85
- return "이름을 입력해주세요", gr.update(selected="입장")
 
 
 
 
 
 
86
 
87
- def save_reflection(text, state_data):
88
- """감상 저장"""
89
- if not text.strip():
90
- return state_data, []
91
-
92
- try:
93
- current_time = datetime.now().strftime("%H:%M:%S")
94
- sentiment = text_analyzer(text)[0]
95
- new_reflection = [current_time, text, sentiment["label"]]
96
-
97
- if "reflections" not in state_data:
98
- state_data["reflections"] = []
99
-
100
- state_data["reflections"].append(new_reflection)
101
- return state_data, state_data["reflections"]
102
- except Exception as e:
103
- print(f"Error in save_reflection: {str(e)}")
104
- return state_data, []
105
-
106
- def analyze_voice(audio_path, state_data):
107
- """음성 분석"""
108
- if audio_path is None:
109
- return None, None, None, state_data
110
-
111
  try:
112
- # 오디오 로드 및 리샘플링
113
- y, sr = librosa.load(audio_path, sr=SAMPLE_RATE)
114
-
115
- # 기본 특성 추출
 
 
 
 
 
 
 
116
  features = {
117
  "energy": float(np.mean(librosa.feature.rms(y=y))),
 
118
  "tempo": float(librosa.beat.tempo(y)[0]),
119
  "zero_crossing_rate": float(np.mean(librosa.feature.zero_crossing_rate(y)))
120
  }
121
-
122
- # MFCC 계산 (파라미터 조정)
123
- mfccs = librosa.feature.mfcc(
124
- y=y,
125
- sr=sr,
126
- n_mfcc=13,
127
- n_mels=N_MELS
128
- )
129
- features["mfcc_mean"] = np.mean(mfccs, axis=1).tolist()
130
-
 
 
 
 
 
 
 
 
 
131
  return (
132
- "음성이 성공적으로 분석되었습니다.", # 텍스트 출력
133
- f"에너지: {features['energy']:.2f}\n템포: {features['tempo']:.2f}", # 감정 출력
134
- features, # JSON 출력
135
- state_data # 상태 업데이트
 
136
  )
137
-
138
  except Exception as e:
139
- print(f"Error in analyze_voice: {str(e)}")
140
- return f"오류 발생: {str(e)}", None, None, state_data
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
141
 
142
  # 이벤트 연결
143
  start_btn.click(
@@ -145,17 +204,23 @@ def create_interface():
145
  inputs=[name_input],
146
  outputs=[user_display, tabs]
147
  )
148
-
149
  save_btn.click(
150
  fn=save_reflection,
151
  inputs=[reflection_input, state],
152
  outputs=[state, reflections_display]
153
  )
154
-
155
  voice_input.change(
156
- fn=analyze_voice,
157
  inputs=[voice_input, state],
158
- outputs=[text_output, emotion_output, audio_features, state]
 
 
 
 
 
 
159
  )
160
 
161
  return app
 
5
  from datetime import datetime
6
  import os
7
 
 
 
 
 
8
  # AI 모델 초기화
9
+ speech_recognizer = pipeline(
10
+ "automatic-speech-recognition",
11
+ model="kresnik/wav2vec2-large-xlsr-korean" # 한국어 음성인식 모델
12
+ )
13
+ emotion_classifier = pipeline(
14
+ "audio-classification",
15
+ model="MIT/ast-finetuned-speech-commands-v2"
16
+ )
17
+ text_analyzer = pipeline(
18
+ "sentiment-analysis",
19
+ model="nlptown/bert-base-multilingual-uncased-sentiment"
20
+ )
21
 
22
  def create_interface():
23
  with gr.Blocks(theme=gr.themes.Soft()) as app:
24
+ # 상태 관리
25
  state = gr.State({
 
26
  "user_name": "",
27
+ "reflections": [],
28
+ "voice_analysis": None,
29
+ "final_prompt": "",
30
+ "generated_images": [] # 생성된 이미지 저장
31
  })
32
 
33
  # 헤더
 
35
  user_display = gr.Markdown("")
36
 
37
  with gr.Tabs() as tabs:
38
+ # 입장
39
+ with gr.Tab("입장"):
40
+ gr.Markdown("""# 디지털 굿판에 오신 것을 환영합니다""")
 
 
 
41
  name_input = gr.Textbox(label="이름을 알려주세요")
42
  start_btn = gr.Button("여정 시작하기")
43
 
44
+ # 청신
45
+ with gr.Tab("청신"):
46
  with gr.Row():
 
47
  audio = gr.Audio(
48
  value="assets/main_music.mp3",
49
  type="filepath",
50
+ label="온천천의 소리"
 
51
  )
 
52
  with gr.Column():
53
  reflection_input = gr.Textbox(
54
  label="현재 순간의 감상을 적어주세요",
 
56
  )
57
  save_btn = gr.Button("감상 저장하기")
58
  reflections_display = gr.Dataframe(
59
+ headers=["시간", "감상", "감정 분석"],
60
  label="기록된 감상들"
61
  )
62
 
63
+ # 기원
64
+ with gr.Tab("기원"):
65
+ gr.Markdown("## 기원 - 목소리로 전하기")
66
  with gr.Row():
67
+ # 음성 입력
68
  voice_input = gr.Audio(
69
  label="나누고 싶은 이야기를 들려주세요",
70
  sources=["microphone"],
71
  type="filepath"
72
  )
73
 
74
+ # 분석 결과
75
  with gr.Column():
76
+ transcribed_text = gr.Textbox(
77
+ label="인식된 텍스트",
78
+ interactive=False
79
+ )
80
+ voice_emotion = gr.Textbox(
81
+ label="음성 감정 분석",
82
+ interactive=False
83
+ )
84
+ text_emotion = gr.Textbox(
85
+ label="텍스트 감정 분석",
86
+ interactive=False
87
+ )
88
+ analysis_details = gr.JSON(
89
+ label="상세 분석 결과"
90
+ )
91
 
92
+ # 송신
93
+ with gr.Tab("송신"):
94
+ gr.Markdown("## 송신 - 시각화 결과")
95
+ with gr.Column():
96
+ final_prompt = gr.Textbox(
97
+ label="생성된 프롬프트",
98
+ interactive=False
99
+ )
100
+ gallery = gr.Gallery(
101
+ label="시각화 결과",
102
+ columns=2
103
+ )
104
+ share_btn = gr.Button("결과 공유하기")
105
 
106
+ def analyze_voice_comprehensive(audio_path, state):
107
+ """종합적인 음성 분석"""
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
108
  try:
109
+ if audio_path is None:
110
+ return state, "음성 입력이 필요합니다.", "", "", {}
111
+
112
+ # 오디오 로드
113
+ y, sr = librosa.load(audio_path, sr=16000)
114
+
115
+ # 1. 음성-텍스트 변환
116
+ transcription = speech_recognizer(y)
117
+ spoken_text = transcription["text"]
118
+
119
+ # 2. 음향학적 특성 분석
120
  features = {
121
  "energy": float(np.mean(librosa.feature.rms(y=y))),
122
+ "pitch": float(np.mean(librosa.piptrack(y=y, sr=sr)[1])),
123
  "tempo": float(librosa.beat.tempo(y)[0]),
124
  "zero_crossing_rate": float(np.mean(librosa.feature.zero_crossing_rate(y)))
125
  }
126
+
127
+ # 3. 음성 감정 분석
128
+ voice_emotions = emotion_classifier(y)
129
+ primary_emotion = voice_emotions[0]
130
+
131
+ # 4. 텍스트 감정 분석
132
+ text_sentiment = text_analyzer(spoken_text)[0]
133
+
134
+ # 결과 종합
135
+ analysis_result = {
136
+ "acoustic_features": features,
137
+ "voice_emotion": primary_emotion,
138
+ "text_sentiment": text_sentiment
139
+ }
140
+
141
+ # 프롬프트 생성
142
+ prompt = generate_art_prompt(spoken_text, analysis_result, state["reflections"])
143
+ state["final_prompt"] = prompt
144
+
145
  return (
146
+ state,
147
+ spoken_text,
148
+ f"음성 감정: {primary_emotion['label']} ({primary_emotion['score']:.2f})",
149
+ f"텍스트 감정: {text_sentiment['label']} ({text_sentiment['score']:.2f})",
150
+ analysis_result
151
  )
152
+
153
  except Exception as e:
154
+ return state, f"오류 발생: {str(e)}", "", "", {}
155
+
156
+ def generate_art_prompt(text, analysis, reflections):
157
+ """예술적 프롬프트 생성"""
158
+ # 음성 감정
159
+ voice_emotion = analysis["voice_emotion"]["label"]
160
+ # 텍스트 감정
161
+ text_sentiment = analysis["text_sentiment"]["label"]
162
+ # 에너지 레벨
163
+ energy = analysis["acoustic_features"]["energy"]
164
+
165
+ # 감정에 따른 색상 매핑
166
+ emotion_colors = {
167
+ "happy": "따뜻한 노란색과 주황색",
168
+ "sad": "깊은 파랑색과 보라색",
169
+ "angry": "강렬한 빨강색과 검정색",
170
+ "neutral": "부드러운 회색과 베이지색"
171
+ }
172
+
173
+ # 기본 프롬프트 구성
174
+ prompt = f"한국 전통 민화 스타일의 추상화, {emotion_colors.get(voice_emotion, '자연스러운 색상')} 사용. "
175
+ prompt += f"음성의 감정({voice_emotion})과 텍스트의 감정({text_sentiment})이 조화를 이루며, "
176
+ prompt += f"에너지 레벨({energy:.2f})을 통해 화면의 동적인 느낌을 표현. "
177
+
178
+ # 이전 감상들 반영
179
+ if reflections:
180
+ prompt += "이전 감상들의 정서를 배경에 은은하게 담아내기. "
181
+
182
+ return prompt
183
+
184
+ def save_reflection(text, state):
185
+ """감상 저장 및 감정 분석"""
186
+ if not text.strip():
187
+ return state, state["reflections"]
188
+
189
+ current_time = datetime.now().strftime("%H:%M:%S")
190
+ sentiment = text_analyzer(text)[0]
191
+ new_reflection = [current_time, text, f"{sentiment['label']} ({sentiment['score']:.2f})"]
192
+
193
+ state["reflections"].append(new_reflection)
194
+ return state, state["reflections"]
195
+
196
+ def start_journey(name):
197
+ """여정 시작"""
198
+ welcome_text = f"# 환영합니다, {name}님의 디지털 굿판"
199
+ return welcome_text, gr.update(selected="청신")
200
 
201
  # 이벤트 연결
202
  start_btn.click(
 
204
  inputs=[name_input],
205
  outputs=[user_display, tabs]
206
  )
207
+
208
  save_btn.click(
209
  fn=save_reflection,
210
  inputs=[reflection_input, state],
211
  outputs=[state, reflections_display]
212
  )
213
+
214
  voice_input.change(
215
+ fn=analyze_voice_comprehensive,
216
  inputs=[voice_input, state],
217
+ outputs=[
218
+ state,
219
+ transcribed_text,
220
+ voice_emotion,
221
+ text_emotion,
222
+ analysis_details
223
+ ]
224
  )
225
 
226
  return app