Spaces:

Curify
/

studio_V1

Running

App Files Files Community

qqwjq1981 commited on 24 days ago

Commit

54c4dc6

verified ·

1 Parent(s): e00a203

Update app.py

Browse files

Files changed (1) hide show

app.py +49 -44

app.py CHANGED Viewed

@@ -33,10 +33,10 @@ import traceback
 from TTS.api import TTS
 import torch
 from TTS.tts.configs.xtts_config import XttsConfig
-# from pydub import AudioSegment
-# from pyannote.audio import Pipeline
-# import traceback
-# import wave
 logger = logging.getLogger(__name__)
@@ -126,34 +126,34 @@ def handle_feedback(feedback):
             conn.commit()
         return "Thank you for your feedback!", None
-# def segment_background_audio(audio_path, output_path="background_segments.wav"):
-#     # Step 2: Initialize pyannote voice activity detection pipeline (you need Hugging Face token)
-#     pipeline = Pipeline.from_pretrained(
-#         "pyannote/voice-activity-detection",
-#         use_auth_token=hf_api_key
-#     )
-#     # Step 3: Run VAD to get speech segments
-#     vad_result = pipeline(audio_path)
-#     print(f"Detected speech segments: {vad_result}")
-#     # Step 4: Load full audio and subtract speech segments
-#     full_audio = AudioSegment.from_wav(audio_path)
-#     background_audio = AudioSegment.silent(duration=len(full_audio))
-#     for segment in vad_result.itersegments():
-#         start_ms = int(segment.start * 1000)
-#         end_ms = int(segment.end * 1000)
-#         # Remove speech by muting that portion
-#         background_audio = background_audio.overlay(AudioSegment.silent(duration=end_ms - start_ms), position=start_ms)
-#     # Step 5: Subtract background_audio from full_audio
-#     result_audio = full_audio.overlay(background_audio)
-#     # Step 6: Export non-speech segments
-#     result_audio.export(output_path, format="wav")
-#     print(f"Saved non-speech (background) audio to: {output_path}")
-#     return True
 def transcribe_video_with_speakers(video_path):
     # Extract audio from video
@@ -162,8 +162,8 @@ def transcribe_video_with_speakers(video_path):
     video.audio.write_audiofile(audio_path)
     logger.info(f"Audio extracted from video: {audio_path}")
-    # segment_result = segment_background_audio(audio_path)
-    # print(f"Saved non-speech (background) audio to local")
     # Set up device
     device = "cuda" if torch.cuda.is_available() else "cpu"
@@ -385,7 +385,7 @@ def create_subtitle_clip_pil(text, start_time, end_time, video_width, video_heig
         logger.error(f"\u274c Failed to create subtitle clip: {e}")
         return None
-def process_entry(entry, i, video_width, video_height, add_voiceover, target_language, font_path, speaker_sample_paths=None):
     logger.debug(f"Processing entry {i}: {entry}")
     error_message = None
@@ -404,7 +404,7 @@ def process_entry(entry, i, video_width, video_height, add_voiceover, target_lan
             speaker = entry.get("speaker", "default")
             speaker_wav_path = f"speaker_{speaker}_sample.wav"
-            output_path, status_msg, tts_error = generate_voiceover_clone([entry], desired_duration, target_language, speaker_wav_path, segment_audio_path)
             if tts_error:
                 error_message = error_message + " | " + tts_error if error_message else tts_error
@@ -438,8 +438,22 @@ def add_transcript_voiceover(video_path, translated_json, output_path, add_voice
     audio_segments = []
     error_messages = []
     with concurrent.futures.ThreadPoolExecutor() as executor:
-        futures = [executor.submit(process_entry, entry, i, video.w, video.h, add_voiceover, target_language, font_path, speaker_sample_paths)
                    for i, entry in enumerate(translated_json)]
         results = []
@@ -484,7 +498,7 @@ def add_transcript_voiceover(video_path, translated_json, output_path, add_voice
     return error_messages
-def generate_voiceover_clone(translated_json, desired_duration, target_language, speaker_wav_path, output_audio_path):
     try:
         full_text = " ".join(entry["translated"] for entry in translated_json if "translated" in entry and entry["translated"].strip())
         if not full_text.strip():
@@ -505,7 +519,7 @@ def generate_voiceover_clone(translated_json, desired_duration, target_language,
         #     full_text = " ".join(tokens[:MAX_TTS_TOKENS])
         speed_tts = calibrated_speed(full_text, desired_duration)
-        tts.tts_to_file(
             text=full_text,
             speaker_wav=speaker_wav_path,
             language=target_language,
@@ -667,16 +681,7 @@ def build_interface():
     return demo
-    # Load XTTS model
-try:
-    print("🔄 Loading XTTS model...")
-    tts = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2")
-    print("✅ XTTS model loaded successfully.")
-except Exception as e:
-    print("❌ Error loading XTTS model:")
-    traceback.print_exc()
-    raise e
 # Launch the Gradio interface
 demo = build_interface()
 demo.launch()

 from TTS.api import TTS
 import torch
 from TTS.tts.configs.xtts_config import XttsConfig
+from pydub import AudioSegment
+from pyannote.audio import Pipeline
+import traceback
+import wave
 logger = logging.getLogger(__name__)
             conn.commit()
         return "Thank you for your feedback!", None
+def segment_background_audio(audio_path, output_path="background_segments.wav"):
+    # Step 2: Initialize pyannote voice activity detection pipeline (you need Hugging Face token)
+    pipeline = Pipeline.from_pretrained(
+        "pyannote/voice-activity-detection",
+        use_auth_token=hf_api_key
+    )
+    # Step 3: Run VAD to get speech segments
+    vad_result = pipeline(audio_path)
+    print(f"Detected speech segments: {vad_result}")
+    # Step 4: Load full audio and subtract speech segments
+    full_audio = AudioSegment.from_wav(audio_path)
+    background_audio = AudioSegment.silent(duration=len(full_audio))
+    for segment in vad_result.itersegments():
+        start_ms = int(segment.start * 1000)
+        end_ms = int(segment.end * 1000)
+        # Remove speech by muting that portion
+        background_audio = background_audio.overlay(AudioSegment.silent(duration=end_ms - start_ms), position=start_ms)
+    # Step 5: Subtract background_audio from full_audio
+    result_audio = full_audio.overlay(background_audio)
+    # Step 6: Export non-speech segments
+    result_audio.export(output_path, format="wav")
+    print(f"Saved non-speech (background) audio to: {output_path}")
+    return True
 def transcribe_video_with_speakers(video_path):
     # Extract audio from video
     video.audio.write_audiofile(audio_path)
     logger.info(f"Audio extracted from video: {audio_path}")
+    segment_result = segment_background_audio(audio_path)
+    print(f"Saved non-speech (background) audio to local")
     # Set up device
     device = "cuda" if torch.cuda.is_available() else "cpu"
         logger.error(f"\u274c Failed to create subtitle clip: {e}")
         return None
+def process_entry(entry, i, tts_model, video_width, video_height, add_voiceover, target_language, font_path, speaker_sample_paths=None):
     logger.debug(f"Processing entry {i}: {entry}")
     error_message = None
             speaker = entry.get("speaker", "default")
             speaker_wav_path = f"speaker_{speaker}_sample.wav"
+            output_path, status_msg, tts_error = generate_voiceover_clone([entry], tts_model, desired_duration, target_language, speaker_wav_path, segment_audio_path)
             if tts_error:
                 error_message = error_message + " | " + tts_error if error_message else tts_error
     audio_segments = []
     error_messages = []
+    global tts_model
+    if tts_model is None:
+        try:
+            print("🔄 Loading XTTS model...")
+            tts_model = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2")
+            print("✅ XTTS model loaded successfully.")
+            return "XTTS model loaded successfully."
+        except Exception as e:
+            print("❌ Error loading XTTS model:")
+            traceback.print_exc()
+            return f"Error loading XTTS model: {e}"
+    else:
+        return "XTTS model is already loaded."
     with concurrent.futures.ThreadPoolExecutor() as executor:
+        futures = [executor.submit(process_entry, tts_model, entry, i, video.w, video.h, add_voiceover, target_language, font_path, speaker_sample_paths)
                    for i, entry in enumerate(translated_json)]
         results = []
     return error_messages
+def generate_voiceover_clone(translated_json, tts_model, desired_duration, target_language, speaker_wav_path, output_audio_path):
     try:
         full_text = " ".join(entry["translated"] for entry in translated_json if "translated" in entry and entry["translated"].strip())
         if not full_text.strip():
         #     full_text = " ".join(tokens[:MAX_TTS_TOKENS])
         speed_tts = calibrated_speed(full_text, desired_duration)
+        tts_model.tts_to_file(
             text=full_text,
             speaker_wav=speaker_wav_path,
             language=target_language,
     return demo
+tts_model = None
 # Launch the Gradio interface
 demo = build_interface()
 demo.launch()