Spaces:

OpenSound
/

SSR-Speech

Running on Zero

App Files Files Community

OpenSound commited on Jan 1

Commit

f2549d2

verified ·

1 Parent(s): e6cf28b

Update app.py

Browse files

Files changed (1) hide show

app.py +80 -56

app.py CHANGED Viewed

@@ -1,3 +1,48 @@
 import os
 os.system("bash setup.sh")
 import requests
@@ -692,15 +737,29 @@ if __name__ == "__main__":
                 with gr.Row():
                     with gr.Column(scale=2):
-                        input_audio = gr.Audio(value=f"{DEMO_PATH}/84_121550_000074_000000.wav", label="Input Audio", type="filepath", interactive=True)
                         with gr.Group():
-                            original_transcript = gr.Textbox(label="Original transcript", lines=5, value="but when I had approached so near to them the common object, which the sense deceives, lost not by distance any of its marks.",
-                                                            info="Use whisperx model to get the transcript.")
                             transcribe_btn = gr.Button(value="Transcribe")
                     with gr.Column(scale=3):
                         with gr.Group():
-                            transcript = gr.Textbox(label="Text", lines=7, value="but when I saw the mirage of the lake in the distance, which the sense deceives, lost not by distance any of its marks.", interactive=True)
                             run_btn = gr.Button(value="Run")
                     with gr.Column(scale=2):
@@ -720,26 +779,18 @@ if __name__ == "__main__":
                         sub_amount = gr.Number(label="sub_amount", value=0.12, info="margin to the left and right of the editing segment, change if you don't like the results")
                 success_output = gr.HTML()
-                semgents = gr.State() # not used
-                state = gr.State() # not used
-                audio_state = gr.State(value=f"{DEMO_PATH}/84_121550_000074_000000.wav")
-                input_audio.change(
-                    lambda audio: audio,
                     inputs=[input_audio],
-                    outputs=[audio_state]
                 )
-                transcribe_btn.click(fn=transcribe_en,
-                                    inputs=[audio_state],
-                                    outputs=[original_transcript, semgents, state, success_output])
                 run_btn.click(fn=run_edit_en,
                             inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
-                                audio_state, original_transcript, transcript,
                             ],
                             outputs=[output_audio, success_output])
@@ -747,7 +798,7 @@ if __name__ == "__main__":
                         inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
-                                audio_state, original_transcript, transcript,
                         ],
                     outputs=[output_audio, success_output]
                 )
@@ -784,25 +835,16 @@ if __name__ == "__main__":
                         sub_amount = gr.Number(label="sub_amount", value=0.12, info="margin to the left and right of the editing segment, change if you don't like the results")
                 success_output = gr.HTML()
-                semgents = gr.State() # not used
-                state = gr.State() # not used
-                audio_state = gr.State(value=f"{DEMO_PATH}/84_121550_000074_000000.wav")
-                input_audio.change(
-                    lambda audio: audio,
-                    inputs=[input_audio],
-                    outputs=[audio_state]
-                )
                 transcribe_btn.click(fn=transcribe_en,
-                                    inputs=[audio_state],
-                                    outputs=[original_transcript, semgents, state, success_output])
                 run_btn.click(fn=run_tts_en,
                             inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
-                                audio_state, original_transcript, transcript,
                             ],
                             outputs=[output_audio, success_output])
@@ -810,7 +852,7 @@ if __name__ == "__main__":
                         inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
-                                audio_state, original_transcript, transcript,
                         ],
                     outputs=[output_audio, success_output]
                 )
@@ -847,25 +889,16 @@ if __name__ == "__main__":
                         sub_amount = gr.Number(label="sub_amount", value=0.12, info="margin to the left and right of the editing segment, change if you don't like the results")
                 success_output = gr.HTML()
-                semgents = gr.State() # not used
-                state = gr.State() # not used
-                audio_state = gr.State(value=f"{DEMO_PATH}/aishell3_test.wav")
-                input_audio.change(
-                    lambda audio: audio,
-                    inputs=[input_audio],
-                    outputs=[audio_state]
-                )
                 transcribe_btn.click(fn=transcribe_zh,
-                                    inputs=[audio_state],
-                                    outputs=[original_transcript, semgents, state, success_output])
                 run_btn.click(fn=run_edit_zh,
                             inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
-                                audio_state, original_transcript, transcript,
                             ],
                             outputs=[output_audio, success_output])
@@ -873,7 +906,7 @@ if __name__ == "__main__":
                         inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
-                                audio_state, original_transcript, transcript,
                         ],
                     outputs=[output_audio, success_output]
                 )
@@ -910,25 +943,16 @@ if __name__ == "__main__":
                         sub_amount = gr.Number(label="sub_amount", value=0.12, info="margin to the left and right of the editing segment, change if you don't like the results")
                 success_output = gr.HTML()
-                semgents = gr.State() # not used
-                state = gr.State() # not used
-                audio_state = gr.State(value=f"{DEMO_PATH}/aishell3_test.wav")
-                input_audio.change(
-                    lambda audio: audio,
-                    inputs=[input_audio],
-                    outputs=[audio_state]
-                )
                 transcribe_btn.click(fn=transcribe_zh,
-                                    inputs=[audio_state],
-                                    outputs=[original_transcript, semgents, state, success_output])
                 run_btn.click(fn=run_tts_zh,
                             inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
-                                audio_state, original_transcript, transcript,
                             ],
                             outputs=[output_audio, success_output])
@@ -936,7 +960,7 @@ if __name__ == "__main__":
                         inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
-                                audio_state, original_transcript, transcript,
                         ],
                     outputs=[output_audio, success_output]
                 )

+Hugging Face's logo
+Hugging Face
+Search models, datasets, users...
+Models
+Datasets
+Spaces
+Posts
+Docs
+Enterprise
+Pricing
+Spaces:
+OpenSound
+/
+SSR-Speech
+private
+Logs
+App
+Files
+Community
+Settings
+SSR-Speech
+/
+app.py
+OpenSound's picture
+OpenSound
+Update app.py
+ce5a339
+verified
+27 minutes ago
+raw
+Copy download link
+history
+blame
+edit
+delete
+41.4 kB
 import os
 os.system("bash setup.sh")
 import requests
                 with gr.Row():
                     with gr.Column(scale=2):
+                        input_audio = gr.Audio(
+                            value=f"{DEMO_PATH}/84_121550_000074_000000.wav",
+                            label="Input Audio",
+                            type="filepath",
+                            interactive=True
+                        )
                         with gr.Group():
+                            original_transcript = gr.Textbox(
+                                label="Original transcript",
+                                lines=5,
+                                value="but when I had approached so near to them the common object, which the sense deceives, lost not by distance any of its marks.",
+                                info="Use whisperx model to get the transcript."
+                            )
                             transcribe_btn = gr.Button(value="Transcribe")
                     with gr.Column(scale=3):
                         with gr.Group():
+                            transcript = gr.Textbox(
+                                label="Text",
+                                lines=7,
+                                value="but when I saw the mirage of the lake in the distance, which the sense deceives, lost not by distance any of its marks.",
+                                interactive=True
+                            )
                             run_btn = gr.Button(value="Run")
                     with gr.Column(scale=2):
                         sub_amount = gr.Number(label="sub_amount", value=0.12, info="margin to the left and right of the editing segment, change if you don't like the results")
                 success_output = gr.HTML()
+                transcribe_btn.click(
+                    fn=transcribe_en,
                     inputs=[input_audio],
+                    outputs=[original_transcript, gr.State(), gr.State(), success_output]
                 )
                 run_btn.click(fn=run_edit_en,
                             inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
+                                input_audio, original_transcript, transcript,
                             ],
                             outputs=[output_audio, success_output])
                         inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
+                                input_audio, original_transcript, transcript,
                         ],
                     outputs=[output_audio, success_output]
                 )
                         sub_amount = gr.Number(label="sub_amount", value=0.12, info="margin to the left and right of the editing segment, change if you don't like the results")
                 success_output = gr.HTML()
                 transcribe_btn.click(fn=transcribe_en,
+                                    inputs=[input_audio],
+                                    outputs=[original_transcript, gr.State(), gr.State(), success_output])
                 run_btn.click(fn=run_tts_en,
                             inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
+                                input_audio, original_transcript, transcript,
                             ],
                             outputs=[output_audio, success_output])
                         inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
+                                input_audio, original_transcript, transcript,
                         ],
                     outputs=[output_audio, success_output]
                 )
                         sub_amount = gr.Number(label="sub_amount", value=0.12, info="margin to the left and right of the editing segment, change if you don't like the results")
                 success_output = gr.HTML()
                 transcribe_btn.click(fn=transcribe_zh,
+                                    inputs=[input_audio],
+                                    outputs=[original_transcript, gr.State(), gr.State(), success_output])
                 run_btn.click(fn=run_edit_zh,
                             inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
+                                input_audio, original_transcript, transcript,
                             ],
                             outputs=[output_audio, success_output])
                         inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
+                                input_audio, original_transcript, transcript,
                         ],
                     outputs=[output_audio, success_output]
                 )
                         sub_amount = gr.Number(label="sub_amount", value=0.12, info="margin to the left and right of the editing segment, change if you don't like the results")
                 success_output = gr.HTML()
                 transcribe_btn.click(fn=transcribe_zh,
+                                    inputs=[input_audio],
+                                    outputs=[original_transcript, gr.State(), gr.State(), success_output])
                 run_btn.click(fn=run_tts_zh,
                             inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
+                                input_audio, original_transcript, transcript,
                             ],
                             outputs=[output_audio, success_output])
                         inputs=[
                                 seed, sub_amount,
                                 aug_text, cfg_coef, cfg_stride, prompt_length,
+                                input_audio, original_transcript, transcript,
                         ],
                     outputs=[output_audio, success_output]
                 )