Spaces:

ysharma
/

text-to-ner-to-image-to-video

Runtime error

App Files Files Community

ysharma HF Staff commited on Apr 22, 2022

Commit

92e8e59

1 Parent(s): 399ecae

1

Browse files

Files changed (1) hide show

app.py +28 -14

app.py CHANGED Viewed

@@ -46,27 +46,38 @@ def resize(img_list):
 #clip.write_videofile('/content/gdrive/My Drive/AI/my_vid_20apr.mp4')
-def merge_audio_video(fps, resize_img_list, speech):
     print("** inside merge aud vid **")
-    #String a list of images into a video and write to memory
     print(type(resize_img_list))
     print(type(resize_img_list[0]))
-    print(fps)
-    clip = moviepy.video.io.ImageSequenceClip.ImageSequenceClip(resize_img_list, fps=fps)
-    clip.write_videofile('my_vid_tmp.mp4')
     #convert flac to mp3 audio format
     wav_audio = AudioSegment.from_file(speech, "flac")  #("/content/gdrive/My Drive/AI/audio1.flac", "flac")
     print('flac audio read', type(wav_audio))
     wav_audio.export("audio.mp3", format="mp3")  #("/content/gdrive/My Drive/AI/audio1.mp3", format="mp3")
     print('flac audio converted to mp3 audio' )
-    # loading video dsa gfg intro video
     videoclip = VideoFileClip('my_vid_tmp.mp4') #("/content/gdrive/My Drive/AI/my_video1.mp4")
-    print('video clip loaded in first time')
     # loading audio file
     audioclip = AudioFileClip('audio.mp3') #.subclip(0, 15)
-    print('mp3 format audio clip loaded in')
     # adding audio to the video clip
     mergedclip = videoclip.set_audio(audioclip)
     print('video and audio merged')
@@ -79,6 +90,7 @@ def merge_audio_video(fps, resize_img_list, speech):
 fastspeech = gr.Interface.load("huggingface/facebook/fastspeech2-en-ljspeech")
 def text2speech(text):
     return fastspeech(text)
 def engine(text_input):
@@ -99,23 +111,25 @@ def engine(text_input):
     print('img_list size:',len(img_list))
     #Resizing all images produced to same size
     resize_img_list = resize(img_list)
     #Convert text to speech using facebook's latest model from HF hub
     speech = text2speech(text_input)
     #getting audio clip's duration
-    audio_length = int(WAVE(speech).info.length)
     #Calculate the desired frame per second based on given audio length and entities identified
-    fps= entities_num / audio_length #19 #length of audio file   #13 / 19
-    fps = float(format(fps, '.5f'))
-    print('fps is: ',fps)
     #Convert string of images into a video
     #clip = images_to_video(fps, resize_img_list)
     #Merge video and audio created above
-    mergedclip = merge_audio_video(fps, resize_img_list, speech)
     #{'prompt':text_input,'steps':'50','width':'256','height':'256','images':'1','scale':10}).launch()
     #img_intfc = gr.Interface.load("spaces/multimodalart/latentdiffusion", inputs=[gr.inputs.Textbox(lines=1, label="Input Text"), gr.inputs.Textbox(lines=1, label="Input Text"), gr.inputs.Textbox(lines=1, label="Input Text"), gr.inputs.Textbox(lines=1, label="Input Text"), gr.inputs.Textbox(lines=1, label="Input Text"), gr.inputs.Textbox(lines=1, label="Input Text")],
     #outputs=[gr.outputs.Image(type="pil", label="output image"),gr.outputs.Carousel(label="Individual images",components=["image"]),gr.outputs.Textbox(label="Error")], )

 #clip.write_videofile('/content/gdrive/My Drive/AI/my_vid_20apr.mp4')
+def merge_audio_video(entities_num, resize_img_list, speech):
     print("** inside merge aud vid **")
     print(type(resize_img_list))
     print(type(resize_img_list[0]))
     #convert flac to mp3 audio format
     wav_audio = AudioSegment.from_file(speech, "flac")  #("/content/gdrive/My Drive/AI/audio1.flac", "flac")
     print('flac audio read', type(wav_audio))
     wav_audio.export("audio.mp3", format="mp3")  #("/content/gdrive/My Drive/AI/audio1.mp3", format="mp3")
     print('flac audio converted to mp3 audio' )
+    print('now getting duration of this mp3 audio' )
+    #getting audio clip's duration
+    audio_length = int(WAVE("audio.mp3").info.length)
+    #Calculate the desired frame per second based on given audio length and entities identified
+    fps= entities_num / audio_length #19 #length of audio file   #13 / 19
+    fps = float(format(fps, '.5f'))
+    print('fps is: ',fps)
+    #String a list of images into a video and write to memory
+    clip = moviepy.video.io.ImageSequenceClip.ImageSequenceClip(resize_img_list, fps=fps)
+    clip.write_videofile('my_vid_tmp.mp4')
+    print('video clip created from images')
+    # loading video file
+    print('Starting video and audio merge')
     videoclip = VideoFileClip('my_vid_tmp.mp4') #("/content/gdrive/My Drive/AI/my_video1.mp4")
+    print('loading video-clip audio')
     # loading audio file
     audioclip = AudioFileClip('audio.mp3') #.subclip(0, 15)
+    print('loading mp3-format audio')
     # adding audio to the video clip
     mergedclip = videoclip.set_audio(audioclip)
     print('video and audio merged')
 fastspeech = gr.Interface.load("huggingface/facebook/fastspeech2-en-ljspeech")
 def text2speech(text):
+    print('inside testtospeech')
     return fastspeech(text)
 def engine(text_input):
     print('img_list size:',len(img_list))
     #Resizing all images produced to same size
     resize_img_list = resize(img_list)
+    print('back from resize')
     #Convert text to speech using facebook's latest model from HF hub
     speech = text2speech(text_input)
+    print('back in engine')
     #getting audio clip's duration
+    #audio_length = int(WAVE(speech).info.length)
     #Calculate the desired frame per second based on given audio length and entities identified
+    #fps= entities_num / audio_length #19 #length of audio file   #13 / 19
+    #fps = float(format(fps, '.5f'))
+    #print('fps is: ',fps)
     #Convert string of images into a video
     #clip = images_to_video(fps, resize_img_list)
     #Merge video and audio created above
+    mergedclip = merge_audio_video(entities_num, resize_img_list, speech)
     #{'prompt':text_input,'steps':'50','width':'256','height':'256','images':'1','scale':10}).launch()
     #img_intfc = gr.Interface.load("spaces/multimodalart/latentdiffusion", inputs=[gr.inputs.Textbox(lines=1, label="Input Text"), gr.inputs.Textbox(lines=1, label="Input Text"), gr.inputs.Textbox(lines=1, label="Input Text"), gr.inputs.Textbox(lines=1, label="Input Text"), gr.inputs.Textbox(lines=1, label="Input Text"), gr.inputs.Textbox(lines=1, label="Input Text")],
     #outputs=[gr.outputs.Image(type="pil", label="output image"),gr.outputs.Carousel(label="Individual images",components=["image"]),gr.outputs.Textbox(label="Error")], )