Spaces:

OpenSound
/

SSR-Speech

Running on Zero

App Files Files Community

OpenSound commited on Dec 22, 2024

Commit

9ded2e7

verified ·

1 Parent(s): 1678017

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -19

app.py CHANGED Viewed

@@ -197,8 +197,6 @@ def transcribe_zh(audio_path):
     transcribe_model_name = "medium"
     transcribe_model = load_model(transcribe_model_name, device, asr_options={"suppress_numerals": True, "max_new_tokens": None, "clip_timestamps": None, "hallucination_silence_threshold": None}, language=language)
     segments = transcribe_model.transcribe(audio_path, batch_size=8)["segments"]
-    for segment in segments:
-        segment['text'] = replace_numbers_with_words(segment['text'])
     _, segments = align_zh(segments, audio_path)
     state = get_transcribe_state(segments)
     success_message = "<span style='color:green;'>Success: Transcribe completed successfully!</span>"
@@ -464,8 +462,8 @@ def run_edit_zh(seed, sub_amount, aug_text, cfg_coef, cfg_stride, prompt_length,
     sf.write(audio_path, audio, 16000)
     # text normalization
-    target_transcript = replace_numbers_with_words(transcript).replace("  ", " ").replace("  ", " ").replace("\n", " ")
-    orig_transcript = replace_numbers_with_words(original_transcript).replace("  ", " ").replace("  ", " ").replace("\n", " ")
     [orig_transcript, segments, _, _] = transcribe_zh(audio_path)
@@ -562,8 +560,8 @@ def run_tts_zh(seed, sub_amount, aug_text, cfg_coef, cfg_stride, prompt_length,
     sf.write(audio_path, audio, 16000)
     # text normalization
-    target_transcript = replace_numbers_with_words(transcript).replace("  ", " ").replace("  ", " ").replace("\n", " ")
-    orig_transcript = replace_numbers_with_words(original_transcript).replace("  ", " ").replace("  ", " ").replace("\n", " ")
     [orig_transcript, segments, _, _] = transcribe_zh(audio_path)
@@ -589,7 +587,7 @@ def run_tts_zh(seed, sub_amount, aug_text, cfg_coef, cfg_stride, prompt_length,
     audio, _ = librosa.load(audio_path, sr=16000, duration=cut_length)
     sf.write(audio_path, audio, 16000)
-    [orig_transcript, segments, _] = transcribe_zh(audio_path)
     converter = opencc.OpenCC('t2s')
@@ -724,15 +722,23 @@ if __name__ == "__main__":
                 semgents = gr.State() # not used
                 state = gr.State() # not used
                 transcribe_btn.click(fn=transcribe_en,
-                                    inputs=[input_audio],
                                     outputs=[original_transcript, semgents, state, success_output])
                 run_btn.click(fn=run_edit_en,
                             inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
-                                input_audio, original_transcript, transcript,
                             ],
                             outputs=[output_audio, success_output])
@@ -740,7 +746,7 @@ if __name__ == "__main__":
                         inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
-                                input_audio, original_transcript, transcript,
                         ],
                     outputs=[output_audio, success_output]
                 )
@@ -780,15 +786,22 @@ if __name__ == "__main__":
                 semgents = gr.State() # not used
                 state = gr.State() # not used
                 transcribe_btn.click(fn=transcribe_en,
-                                    inputs=[input_audio],
                                     outputs=[original_transcript, semgents, state, success_output])
                 run_btn.click(fn=run_tts_en,
                             inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
-                                input_audio, original_transcript, transcript,
                             ],
                             outputs=[output_audio, success_output])
@@ -796,7 +809,7 @@ if __name__ == "__main__":
                         inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
-                                input_audio, original_transcript, transcript,
                         ],
                     outputs=[output_audio, success_output]
                 )
@@ -836,15 +849,22 @@ if __name__ == "__main__":
                 semgents = gr.State() # not used
                 state = gr.State() # not used
                 transcribe_btn.click(fn=transcribe_zh,
-                                    inputs=[input_audio],
                                     outputs=[original_transcript, semgents, state, success_output])
                 run_btn.click(fn=run_edit_zh,
                             inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
-                                input_audio, original_transcript, transcript,
                             ],
                             outputs=[output_audio, success_output])
@@ -852,7 +872,7 @@ if __name__ == "__main__":
                         inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
-                                input_audio, original_transcript, transcript,
                         ],
                     outputs=[output_audio, success_output]
                 )
@@ -892,15 +912,22 @@ if __name__ == "__main__":
                 semgents = gr.State() # not used
                 state = gr.State() # not used
                 transcribe_btn.click(fn=transcribe_zh,
-                                    inputs=[input_audio],
                                     outputs=[original_transcript, semgents, state, success_output])
                 run_btn.click(fn=run_tts_zh,
                             inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
-                                input_audio, original_transcript, transcript,
                             ],
                             outputs=[output_audio, success_output])
@@ -908,7 +935,7 @@ if __name__ == "__main__":
                         inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
-                                input_audio, original_transcript, transcript,
                         ],
                     outputs=[output_audio, success_output]
                 )

     transcribe_model_name = "medium"
     transcribe_model = load_model(transcribe_model_name, device, asr_options={"suppress_numerals": True, "max_new_tokens": None, "clip_timestamps": None, "hallucination_silence_threshold": None}, language=language)
     segments = transcribe_model.transcribe(audio_path, batch_size=8)["segments"]
     _, segments = align_zh(segments, audio_path)
     state = get_transcribe_state(segments)
     success_message = "<span style='color:green;'>Success: Transcribe completed successfully!</span>"
     sf.write(audio_path, audio, 16000)
     # text normalization
+    target_transcript = transcript.replace("  ", " ").replace("  ", " ").replace("\n", " ")
+    orig_transcript = original_transcript.replace("  ", " ").replace("  ", " ").replace("\n", " ")
     [orig_transcript, segments, _, _] = transcribe_zh(audio_path)
     sf.write(audio_path, audio, 16000)
     # text normalization
+    target_transcript = transcript.replace("  ", " ").replace("  ", " ").replace("\n", " ")
+    orig_transcript = original_transcript.replace("  ", " ").replace("  ", " ").replace("\n", " ")
     [orig_transcript, segments, _, _] = transcribe_zh(audio_path)
     audio, _ = librosa.load(audio_path, sr=16000, duration=cut_length)
     sf.write(audio_path, audio, 16000)
+    [orig_transcript, segments, _, _] = transcribe_zh(audio_path)
     converter = opencc.OpenCC('t2s')
                 semgents = gr.State() # not used
                 state = gr.State() # not used
+                audio_state = gr.State(value=f"{DEMO_PATH}/84_121550_000074_000000.wav")
+                input_audio.change(
+                    lambda audio: audio,
+                    inputs=[input_audio],
+                    outputs=[audio_state]
+                )
                 transcribe_btn.click(fn=transcribe_en,
+                                    inputs=[audio_state],
                                     outputs=[original_transcript, semgents, state, success_output])
                 run_btn.click(fn=run_edit_en,
                             inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
+                                audio_state, original_transcript, transcript,
                             ],
                             outputs=[output_audio, success_output])
                         inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
+                                audio_state, original_transcript, transcript,
                         ],
                     outputs=[output_audio, success_output]
                 )
                 semgents = gr.State() # not used
                 state = gr.State() # not used
+                audio_state = gr.State(value=f"{DEMO_PATH}/84_121550_000074_000000.wav")
+                input_audio.change(
+                    lambda audio: audio,
+                    inputs=[input_audio],
+                    outputs=[audio_state]
+                )
                 transcribe_btn.click(fn=transcribe_en,
+                                    inputs=[audio_state],
                                     outputs=[original_transcript, semgents, state, success_output])
                 run_btn.click(fn=run_tts_en,
                             inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
+                                audio_state, original_transcript, transcript,
                             ],
                             outputs=[output_audio, success_output])
                         inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
+                                audio_state, original_transcript, transcript,
                         ],
                     outputs=[output_audio, success_output]
                 )
                 semgents = gr.State() # not used
                 state = gr.State() # not used
+                audio_state = gr.State(value=f"{DEMO_PATH}/aishell3_test.wav")
+                input_audio.change(
+                    lambda audio: audio,
+                    inputs=[input_audio],
+                    outputs=[audio_state]
+                )
                 transcribe_btn.click(fn=transcribe_zh,
+                                    inputs=[audio_state],
                                     outputs=[original_transcript, semgents, state, success_output])
                 run_btn.click(fn=run_edit_zh,
                             inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
+                                audio_state, original_transcript, transcript,
                             ],
                             outputs=[output_audio, success_output])
                         inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
+                                audio_state, original_transcript, transcript,
                         ],
                     outputs=[output_audio, success_output]
                 )
                 semgents = gr.State() # not used
                 state = gr.State() # not used
+                audio_state = gr.State(value=f"{DEMO_PATH}/aishell3_test.wav")
+                input_audio.change(
+                    lambda audio: audio,
+                    inputs=[input_audio],
+                    outputs=[audio_state]
+                )
                 transcribe_btn.click(fn=transcribe_zh,
+                                    inputs=[audio_state],
                                     outputs=[original_transcript, semgents, state, success_output])
                 run_btn.click(fn=run_tts_zh,
                             inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
+                                audio_state, original_transcript, transcript,
                             ],
                             outputs=[output_audio, success_output])
                         inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
+                                audio_state, original_transcript, transcript,
                         ],
                     outputs=[output_audio, success_output]
                 )