Spaces:

VIDraft
/

Portrait-Animation

Running on Zero

openfree commited on May 10

Commit

e406956

verified ·

1 Parent(s): 6ee08fc

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -73,28 +73,26 @@ def process_sonic(image, audio, dynamic_scale):
         raise gr.Error("Please upload an image")
     if audio is None:
         raise gr.Error("Please upload an audio file")
-    img_md5 = get_md5(np.array(image))
-    audio_md5 = get_md5(audio[1])
-    print(f"Processing with image hash: {img_md5}, audio hash: {audio_md5}")
     sampling_rate, arr = audio[:2]
     if len(arr.shape) == 1:
         arr = arr[:, None]
-    # numpy array -> AudioSegment 변환
     audio_segment = AudioSegment(
         arr.tobytes(),
         frame_rate=sampling_rate,
         sample_width=arr.dtype.itemsize,
         channels=arr.shape[1]
     )
-    audio_segment = audio_segment.set_frame_rate(sampling_rate)
-    # 오디오 길이 제한 확인 (최대 60초)
-    MAX_DURATION_MS = 60000  # 60초
     if len(audio_segment) > MAX_DURATION_MS:
-        print(f"Audio longer than 60 seconds ({len(audio_segment)/1000:.2f}s). Truncating to 60 seconds.")
         audio_segment = audio_segment[:MAX_DURATION_MS]
     # 파일 경로 생성

         raise gr.Error("Please upload an image")
     if audio is None:
         raise gr.Error("Please upload an audio file")
+    # audio -> AudioSegment
     sampling_rate, arr = audio[:2]
     if len(arr.shape) == 1:
         arr = arr[:, None]
     audio_segment = AudioSegment(
         arr.tobytes(),
         frame_rate=sampling_rate,
         sample_width=arr.dtype.itemsize,
         channels=arr.shape[1]
     )
+    # (중요) Whisper 호환을 위해 mono/16kHz 변환
+    audio_segment = audio_segment.set_channels(1)
+    audio_segment = audio_segment.set_frame_rate(16000)
+    # 최대 60초 제한
+    MAX_DURATION_MS = 60000
     if len(audio_segment) > MAX_DURATION_MS:
         audio_segment = audio_segment[:MAX_DURATION_MS]
     # 파일 경로 생성