haepada commited on
Commit
ed44b5b
·
verified ·
1 Parent(s): 312ddbf

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +67 -86
app.py CHANGED
@@ -33,14 +33,66 @@ korean_sentiment = pipeline(
33
  model="searle-j/korean_sentiment_analysis"
34
  )
35
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
36
  def generate_image_from_prompt(prompt):
37
- """이미지 생성 함수"""
38
- print(f"Generating image with prompt: {prompt}") # 디버깅용
39
  try:
40
  if not prompt:
41
- print("No prompt provided")
42
  return None
43
-
44
  response = requests.post(
45
  API_URL,
46
  headers=headers,
@@ -55,19 +107,18 @@ def generate_image_from_prompt(prompt):
55
  )
56
 
57
  if response.status_code == 200:
58
- print("Image generated successfully")
59
  return response.content
60
  else:
61
  print(f"Error: {response.status_code}")
62
  print(f"Response: {response.text}")
63
  return None
64
-
65
  except Exception as e:
66
  print(f"Error generating image: {str(e)}")
67
  return None
68
 
69
  def create_interface():
70
  with gr.Blocks(theme=gr.themes.Soft()) as app:
 
71
  state = gr.State({
72
  "user_name": "",
73
  "reflections": [],
@@ -151,21 +202,23 @@ def create_interface():
151
  type="pil"
152
  )
153
 
 
 
 
 
 
154
  def clear_voice_input():
155
  """음성 입력 초기화"""
156
  return None
157
 
158
- # analyze_voice 함수 부분만 수정
159
  def analyze_voice(audio_path, state):
160
- """음성 분석 개선"""
161
  if audio_path is None:
162
  return state, "음성을 먼저 녹음해주세요.", "", "", ""
163
 
164
  try:
165
- # 오디오 로드
166
  y, sr = librosa.load(audio_path, sr=16000)
167
 
168
- # 1. 음향학적 특성 분석
169
  acoustic_features = {
170
  "energy": float(np.mean(librosa.feature.rms(y=y))),
171
  "tempo": float(librosa.beat.tempo(y)[0]),
@@ -173,91 +226,20 @@ def create_interface():
173
  "volume": float(np.mean(np.abs(y)))
174
  }
175
 
176
- # 음성의 특성에 따른 감정 매핑
177
  voice_emotion = map_acoustic_to_emotion(acoustic_features)
178
-
179
- # 2. 음성-텍스트 변환
180
  transcription = speech_recognizer(y)
181
  text = transcription["text"]
182
-
183
- # 3. 텍스트 감정 분석
184
  text_sentiment = korean_sentiment(text)[0]
185
 
186
- # 결과 포맷팅
187
  voice_result = f"음성 감정: {voice_emotion['emotion']} (강도: {voice_emotion['intensity']:.2f})"
188
  text_result = f"텍스트 감정: {text_sentiment['label']} ({text_sentiment['score']:.2f})"
189
 
190
- # 프롬프트 생성
191
  prompt = generate_detailed_prompt(text, voice_emotion, text_sentiment, acoustic_features)
192
 
193
- return (
194
- state,
195
- text,
196
- voice_result,
197
- text_result,
198
- prompt
199
- )
200
  except Exception as e:
201
  return state, f"오류 발생: {str(e)}", "", "", ""
202
 
203
- def map_acoustic_to_emotion(features):
204
- """음향학적 특성을 감정으로 매핑"""
205
- # 에너지 기반 감정 강도
206
- intensity = features["energy"] * 100
207
-
208
- # 음성 특성에 따른 감정 분류
209
- if features["energy"] > 0.7:
210
- if features["tempo"] > 120:
211
- emotion = "기쁨/흥분"
212
- else:
213
- emotion = "분노/강조"
214
- elif features["pitch"] > 0.6:
215
- emotion = "놀람/관심"
216
- elif features["energy"] < 0.3:
217
- emotion = "슬픔/우울"
218
- else:
219
- emotion = "평온/중립"
220
-
221
- return {
222
- "emotion": emotion,
223
- "intensity": intensity,
224
- "features": features
225
- }
226
-
227
- def generate_detailed_prompt(text, voice_emotion, text_sentiment, acoustic_features):
228
- """더 상세한 프롬프트 생성"""
229
- # 감정별 색상 매핑
230
- emotion_colors = {
231
- "기쁨/흥분": "밝은 노랑과 주황색",
232
- "분노/강조": "강렬한 빨강과 검정",
233
- "놀람/관심": "선명한 파랑과 보라",
234
- "슬픔/우울": "어두운 파랑과 회색",
235
- "평온/중립": "부드러운 초록과 베이지"
236
- }
237
-
238
- # 음성 특성에 따른 시각적 요소
239
- visual_elements = {
240
- "high_energy": "역동적인 붓질과 강한 대비",
241
- "medium_energy": "균형잡힌 구도와 자연스러운 흐름",
242
- "low_energy": "부드러운 그라데이션과 차분한 톤"
243
- }
244
-
245
- # 에너지 레벨 결정
246
- energy_level = "medium_energy"
247
- if acoustic_features["energy"] > 0.7:
248
- energy_level = "high_energy"
249
- elif acoustic_features["energy"] < 0.3:
250
- energy_level = "low_energy"
251
-
252
- # 프롬프트 구성
253
- prompt = f"한국 전통 민화 스타일의 추상화, {emotion_colors.get(voice_emotion['emotion'], '자연스러운 색상')} 기반. "
254
- prompt += f"{visual_elements[energy_level]}를 통해 감정의 깊이를 표현. "
255
- prompt += f"음성의 {voice_emotion['emotion']} 감정과 텍스트의 {text_sentiment['label']} 감정이 조화를 이루며, "
256
- prompt += f"목소리의 특징(강도:{voice_emotion['intensity']:.1f})을 화면의 동적인 요소로 표현. "
257
- prompt += f"발화 내용 '{text}'의 의미를 은유적 이미지로 담아내기."
258
-
259
- return prompt
260
-
261
  def save_reflection(text, state):
262
  """감상 저장"""
263
  if not text.strip():
@@ -269,7 +251,7 @@ def generate_detailed_prompt(text, voice_emotion, text_sentiment, acoustic_featu
269
 
270
  if "reflections" not in state:
271
  state["reflections"] = []
272
-
273
  state["reflections"].append(new_reflection)
274
  return state, state["reflections"]
275
 
@@ -301,12 +283,11 @@ def generate_detailed_prompt(text, voice_emotion, text_sentiment, acoustic_featu
301
  generate_btn.click(
302
  fn=generate_image_from_prompt,
303
  inputs=[final_prompt],
304
- outputs=[result_image],
305
- api_name="generate_image" # API 이름 지정
306
  )
307
 
308
  return app
309
 
310
  if __name__ == "__main__":
311
  demo = create_interface()
312
- demo.launch(debug=True) # 디버그 모드 활성화
 
33
  model="searle-j/korean_sentiment_analysis"
34
  )
35
 
36
+ # 유틸리티 함수들
37
+ def map_acoustic_to_emotion(features):
38
+ """음향학적 특성을 감정으로 매핑"""
39
+ intensity = features["energy"] * 100
40
+
41
+ if features["energy"] > 0.7:
42
+ if features["tempo"] > 120:
43
+ emotion = "기쁨/흥분"
44
+ else:
45
+ emotion = "분노/강조"
46
+ elif features["pitch"] > 0.6:
47
+ emotion = "놀람/관심"
48
+ elif features["energy"] < 0.3:
49
+ emotion = "슬픔/우울"
50
+ else:
51
+ emotion = "평온/중립"
52
+
53
+ return {
54
+ "emotion": emotion,
55
+ "intensity": intensity,
56
+ "features": features
57
+ }
58
+
59
+ def generate_detailed_prompt(text, voice_emotion, text_sentiment, acoustic_features):
60
+ """프롬프트 생성"""
61
+ emotion_colors = {
62
+ "기쁨/흥분": "밝은 노랑과 주황색",
63
+ "분노/강조": "강렬한 빨강과 검정",
64
+ "놀람/관심": "선명한 파랑과 보라",
65
+ "슬픔/우울": "어두운 파랑과 회색",
66
+ "평온/중립": "부드러운 초록과 베이지"
67
+ }
68
+
69
+ visual_elements = {
70
+ "high_energy": "역동적인 붓질과 강한 대비",
71
+ "medium_energy": "균형잡힌 구도와 자연스러운 흐름",
72
+ "low_energy": "부드러운 그라데이션과 차분한 톤"
73
+ }
74
+
75
+ energy_level = "medium_energy"
76
+ if acoustic_features["energy"] > 0.7:
77
+ energy_level = "high_energy"
78
+ elif acoustic_features["energy"] < 0.3:
79
+ energy_level = "low_energy"
80
+
81
+ prompt = f"한국 전통 민화 스타일의 추상화, {emotion_colors.get(voice_emotion['emotion'], '자연스러운 색상')} 기반. "
82
+ prompt += f"{visual_elements[energy_level]}를 통해 감정의 깊이를 표현. "
83
+ prompt += f"음성의 {voice_emotion['emotion']} 감정과 텍스트의 {text_sentiment['label']} 감정이 조화를 이루며, "
84
+ prompt += f"목소리의 특징(강도:{voice_emotion['intensity']:.1f})을 화면의 동적인 요소로 표현. "
85
+ prompt += f"발화 내용 '{text}'의 의미를 은유적 이미지로 담아내기."
86
+
87
+ return prompt
88
+
89
  def generate_image_from_prompt(prompt):
90
+ """이미지 생성"""
91
+ print(f"Generating image with prompt: {prompt}")
92
  try:
93
  if not prompt:
 
94
  return None
95
+
96
  response = requests.post(
97
  API_URL,
98
  headers=headers,
 
107
  )
108
 
109
  if response.status_code == 200:
 
110
  return response.content
111
  else:
112
  print(f"Error: {response.status_code}")
113
  print(f"Response: {response.text}")
114
  return None
 
115
  except Exception as e:
116
  print(f"Error generating image: {str(e)}")
117
  return None
118
 
119
  def create_interface():
120
  with gr.Blocks(theme=gr.themes.Soft()) as app:
121
+ # 상태 관리
122
  state = gr.State({
123
  "user_name": "",
124
  "reflections": [],
 
202
  type="pil"
203
  )
204
 
205
+ # 인터페이스 함수들
206
+ def start_journey(name):
207
+ """여정 시작"""
208
+ return f"# 환영합니다, {name}님의 디지털 굿판", gr.update(selected="청신")
209
+
210
  def clear_voice_input():
211
  """음성 입력 초기화"""
212
  return None
213
 
 
214
  def analyze_voice(audio_path, state):
215
+ """음성 분석"""
216
  if audio_path is None:
217
  return state, "음성을 먼저 녹음해주세요.", "", "", ""
218
 
219
  try:
 
220
  y, sr = librosa.load(audio_path, sr=16000)
221
 
 
222
  acoustic_features = {
223
  "energy": float(np.mean(librosa.feature.rms(y=y))),
224
  "tempo": float(librosa.beat.tempo(y)[0]),
 
226
  "volume": float(np.mean(np.abs(y)))
227
  }
228
 
 
229
  voice_emotion = map_acoustic_to_emotion(acoustic_features)
 
 
230
  transcription = speech_recognizer(y)
231
  text = transcription["text"]
 
 
232
  text_sentiment = korean_sentiment(text)[0]
233
 
 
234
  voice_result = f"음성 감정: {voice_emotion['emotion']} (강도: {voice_emotion['intensity']:.2f})"
235
  text_result = f"텍스트 감정: {text_sentiment['label']} ({text_sentiment['score']:.2f})"
236
 
 
237
  prompt = generate_detailed_prompt(text, voice_emotion, text_sentiment, acoustic_features)
238
 
239
+ return state, text, voice_result, text_result, prompt
 
 
 
 
 
 
240
  except Exception as e:
241
  return state, f"오류 발생: {str(e)}", "", "", ""
242
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
243
  def save_reflection(text, state):
244
  """감상 저장"""
245
  if not text.strip():
 
251
 
252
  if "reflections" not in state:
253
  state["reflections"] = []
254
+
255
  state["reflections"].append(new_reflection)
256
  return state, state["reflections"]
257
 
 
283
  generate_btn.click(
284
  fn=generate_image_from_prompt,
285
  inputs=[final_prompt],
286
+ outputs=[result_image]
 
287
  )
288
 
289
  return app
290
 
291
  if __name__ == "__main__":
292
  demo = create_interface()
293
+ demo.launch(debug=True)