Spaces:

Curify
/

studio_V1

Sleeping

App Files Files Community

qqwjq1981 commited on Mar 31

Commit

f67d3e8

verified ·

1 Parent(s): a828f58

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -25

app.py CHANGED Viewed

@@ -370,9 +370,12 @@ def process_entry(entry, i, video_width, video_height, add_voiceover, target_lan
             speaker = entry.get("speaker", "default")
             speaker_wav_path = f"speaker_{speaker}_sample.wav"
-            generate_voiceover_clone([entry], desired_duration, target_language, speaker_wav_path, segment_audio_path)
-            if not os.path.exists(segment_audio_path):
                 raise FileNotFoundError(f"Voiceover file not generated at: {segment_audio_path}")
             audio_clip = AudioFileClip(segment_audio_path)
@@ -392,6 +395,7 @@ def process_entry(entry, i, video_width, video_height, add_voiceover, target_lan
             audio_segment = None
     return i, txt_clip, audio_segment, error_message
 def add_transcript_voiceover(video_path, translated_json, output_path, add_voiceover=False, target_language="en", speaker_sample_paths=None):
     video = VideoFileClip(video_path)
     font_path = "./NotoSansSC-Regular.ttf"
@@ -459,19 +463,17 @@ tts = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2")
 def generate_voiceover_clone(translated_json, desired_duration, target_language, speaker_wav_path, output_audio_path):
     try:
-        # 1. Assemble full text
         full_text = " ".join(entry["translated"] for entry in translated_json if "translated" in entry and entry["translated"].strip())
         if not full_text.strip():
-            logger.error("❌ Translated text is empty. Skipping TTS generation.")
-            return None, "❌ Translated text is empty."
-        # 2. Check speaker file path
         if not speaker_wav_path or not os.path.exists(speaker_wav_path):
-            logger.error(f"❌ Speaker WAV path not found: {speaker_wav_path}")
-            return None, f"❌ Speaker audio not found: {speaker_wav_path}"
-        # Optional: Print speaker audio duration
         try:
             with wave.open(speaker_wav_path, 'rb') as wav_file:
                 duration = wav_file.getnframes() / wav_file.getframerate()
@@ -479,36 +481,29 @@ def generate_voiceover_clone(translated_json, desired_duration, target_language,
         except Exception as e:
             logger.warning(f"⚠️ Could not read speaker WAV duration: {e}")
-        # 3. Log key inputs
-        logger.info(f"📥 Received Text: {full_text}")
-        logger.info(f"📁 Speaker WAV Path: {speaker_wav_path}")
-        logger.info(f"🌐 Target Language: {target_language}")
-        logger.info(f"💾 Output Path: {output_audio_path}")
-        logger.info(f"⏱️ Target Duration: {desired_duration:.2f}s")
-        # 4. Call TTS to generate audio
         speed_tts = calculate_speed(full_text, desired_duration)
         tts.tts_to_file(
             text=full_text,
             speaker_wav=speaker_wav_path,
             language=target_language,
             file_path=output_audio_path,
-            # Uncomment if your model supports speed:
             speed=speed_tts
         )
-        # 5. Confirm file was written
         if not os.path.exists(output_audio_path):
-            logger.error(f"❌ File NOT generated after tts_to_file: {output_audio_path}")
-            return None, f"❌ Voiceover file not generated at: {output_audio_path}"
-        logger.info("✅ Voice cloning completed successfully.")
-        return output_audio_path, "✅ Voice cloning completed successfully."
     except Exception as e:
         logger.error("❌ Error during voice cloning:")
         logger.error(traceback.format_exc())
-        return None, f"❌ An error occurred: {str(e)}"
 def truncated_linear(x):
     if x < 15:

             speaker = entry.get("speaker", "default")
             speaker_wav_path = f"speaker_{speaker}_sample.wav"
+            output_path, status_msg, tts_error = generate_voiceover_clone([entry], desired_duration, target_language, speaker_wav_path, segment_audio_path)
+            if tts_error:
+                error_message = error_message + " | " + tts_error if error_message else tts_error
+            if not output_path or not os.path.exists(segment_audio_path):
                 raise FileNotFoundError(f"Voiceover file not generated at: {segment_audio_path}")
             audio_clip = AudioFileClip(segment_audio_path)
             audio_segment = None
     return i, txt_clip, audio_segment, error_message
 def add_transcript_voiceover(video_path, translated_json, output_path, add_voiceover=False, target_language="en", speaker_sample_paths=None):
     video = VideoFileClip(video_path)
     font_path = "./NotoSansSC-Regular.ttf"
 def generate_voiceover_clone(translated_json, desired_duration, target_language, speaker_wav_path, output_audio_path):
     try:
         full_text = " ".join(entry["translated"] for entry in translated_json if "translated" in entry and entry["translated"].strip())
         if not full_text.strip():
+            msg = "❌ Translated text is empty."
+            logger.error(msg)
+            return None, msg, msg
         if not speaker_wav_path or not os.path.exists(speaker_wav_path):
+            msg = f"❌ Speaker audio not found: {speaker_wav_path}"
+            logger.error(msg)
+            return None, msg, msg
         try:
             with wave.open(speaker_wav_path, 'rb') as wav_file:
                 duration = wav_file.getnframes() / wav_file.getframerate()
         except Exception as e:
             logger.warning(f"⚠️ Could not read speaker WAV duration: {e}")
         speed_tts = calculate_speed(full_text, desired_duration)
         tts.tts_to_file(
             text=full_text,
             speaker_wav=speaker_wav_path,
             language=target_language,
             file_path=output_audio_path,
             speed=speed_tts
         )
         if not os.path.exists(output_audio_path):
+            msg = f"❌ Voiceover file not generated at: {output_audio_path}"
+            logger.error(msg)
+            return None, msg, msg
+        msg = "✅ Voice cloning completed successfully."
+        logger.info(msg)
+        return output_audio_path, msg, None
     except Exception as e:
+        err_msg = f"❌ An error occurred: {str(e)}"
         logger.error("❌ Error during voice cloning:")
         logger.error(traceback.format_exc())
+        return None, err_msg, err_msg
 def truncated_linear(x):
     if x < 15: