Spaces:

ruslanmv
/

Youtube-Video-Translator

Running

App Files Files Community

Ruslan Magana Vsevolodovna commited on Sep 4, 2022

Commit

e4b9e92

1 Parent(s): 82fe417

Update app.py

Browse files

Files changed (1) hide show

app.py +113 -25

app.py CHANGED Viewed

@@ -77,16 +77,104 @@ def getSize(filename):
     return st.st_size
-def generate_transcript(url,lang_api):
-    id = url[url.index("=")+1:]
-    transcript = YouTubeTranscriptApi.get_transcript(id,languages=[lang_api])
     script = ""
-    for text in transcript:
         t = text["text"]
-        if t != '[Music]':
-            script += t + " "
     return script
 # Set environment variables
 home_dir = os.getcwd()
@@ -141,11 +229,11 @@ def video_to_translate(url,initial_language,final_language):
     print(file_obj)
 # Insert Local Video File Path
     videoclip = VideoFileClip(file_obj)
-    try:
-        # Trying to get transcripts
-        text = generate_transcript(url,lang_api)
-        print("Transcript Found")
-    except Exception:
         print("No Transcript Found")
         # Trying to recognize audio
         # Insert Local Audio File Path
@@ -185,21 +273,21 @@ def video_to_translate(url,initial_language,final_language):
                         return "./demo/tryagain.mp4"
         #print(text)
-    print("Destination language ",lang)
-    # init the Google API translator
-    translator = Translator()
-    try:
-        translation = translator.translate(text, dest=lang)
-    except Exception:
-        print("This text cannot be translated")
-        cleanup()
-        return "./demo/tryagain.mp4"
-    #translation.text
-    trans=translation.text
     myobj = gTTS(text=trans, lang=lang, slow=False)
     myobj.save("audio.wav")
@@ -242,10 +330,10 @@ gr.Interface(fn = video_to_translate,
            examples = [
                         ["https://www.youtube.com/watch?v=uLVRZE8OAI4", "English","Spanish"],
-                        ["https://www.youtube.com/watch?v=Cu3R5it4cQs&list", "English","Italian"],
                         ["https://www.youtube.com/watch?v=fkGCLIQx1MI", "English","Russian"],
                         ["https://www.youtube.com/watch?v=aDGY4ezFR_0", "Italian","English"],
-                        ["https://www.youtube.com/watch?v=QbkhvLrlex4", "Russian","English"],
                         ["https://www.youtube.com/watch?v=qzzweIQoIOU", "Japanese","English"],
                         ["https://www.youtube.com/watch?v=nOGZvu6tJFE", "German","Spanish"]

     return st.st_size
+def clean_transcript(transcript_list):
     script = ""
+    for text in transcript_list:
         t = text["text"]
+        if( (t != '[music]')  and  \
+            (t != '[Music]')  and  \
+            (t != '[музыка]') and  \
+            (t != '[Музыка]') and  \
+            (t != '[musik]')  and  \
+            (t != '[Musik]')  and  \
+            (t != '[musica]') and  \
+            (t != '[Musica]') and  \
+            (t != '[música]') and  \
+            (t != '[Música]') and  \
+            (t != '[音楽]')   and \
+            (t != '[音乐]')
+          ) :
+            script += t + " "
     return script
+def get_transcript(url,desired_language):
+    id_you= url[url.index("=")+1:]
+    try:
+        # retrieve the available transcripts
+        transcript_list = YouTubeTranscriptApi.list_transcripts(id_you)
+    except Exception:
+        print('TranscriptsDisabled:')
+        is_translated = False
+        return " ", is_translated
+    lista=[]
+    transcript_translation_languages=[]
+    # iterate over all available transcripts
+    for transcript in transcript_list:
+        lista.extend([
+        transcript.language_code,
+        transcript.is_generated,
+        transcript.is_translatable,
+        transcript_translation_languages.append(transcript.translation_languages),
+                     ])
+    print(lista)
+    n_size=int(len(lista)/4)
+    print("There are {} avialable scripts".format(n_size))
+    import numpy as np
+    matrix = np.array(lista)
+    shape = (n_size,4)
+    matrix=matrix.reshape(shape)
+    matrix=matrix.tolist()
+    is_manually=False
+    is_automatic=False
+    for lista in matrix:
+        #print(lista)
+        language_code=lista[0]
+        is_generated=lista[1]
+        is_translatable=lista[2]
+        if not is_generated and is_translatable :
+            print("Script found manually generated")
+            is_manually=True
+            language_code_man=language_code
+        if  is_generated and is_translatable :
+            print("Script found automatic generated")
+            is_automatic=True
+            language_code_au=language_code
+    if  is_manually:
+        # we try filter for manually created transcripts
+        print('We extract manually created transcripts')
+        transcript = transcript_list.find_manually_created_transcript([language_code])
+    elif is_automatic:
+        print('We  extract generated transcript')
+        # or automatically generated ones, but not translated
+        transcript = transcript_list.find_generated_transcript([language_code])
+    else:
+        print('We try find the transcript')
+        # we directly filter for the language you are looking for, using the transcript list
+        transcript = transcript_list.find_transcript([language_code])
+    is_translated = False
+    if is_translatable :
+        for available_trad in  transcript_translation_languages[0]:
+            if available_trad['language_code']==desired_language:
+                print("It was found the translation for lang:",desired_language)
+                print('We translate directly the transcript')
+                transcript_translated =  transcript.translate(desired_language)
+                transcript_translated=transcript_translated.fetch()
+                translated=clean_transcript(transcript_translated)
+                is_translated = True
+    script_translated = ""
+    if is_translated :
+        script_translated = translated
+    transcript=transcript.fetch()
+    script = clean_transcript(transcript)
+    return script, script_translated, is_translated
 # Set environment variables
 home_dir = os.getcwd()
     print(file_obj)
 # Insert Local Video File Path
     videoclip = VideoFileClip(file_obj)
+    is_traduc=False
+    # Trying to get transcripts
+    text, trans, is_traduc = get_transcript(url,desired_language=lang)
+    print("Transcript Found")
+    if not is_traduc:
         print("No Transcript Found")
         # Trying to recognize audio
         # Insert Local Audio File Path
                         return "./demo/tryagain.mp4"
         #print(text)
+        print("Destination language ",lang)
+        # init the Google API translator
+        translator = Translator()
+        try:
+            translation = translator.translate(text, dest=lang)
+        except Exception:
+            print("This text cannot be translated")
+            cleanup()
+            return "./demo/tryagain.mp4"
+        #translation.text
+        trans=translation.text
     myobj = gTTS(text=trans, lang=lang, slow=False)
     myobj.save("audio.wav")
            examples = [
                         ["https://www.youtube.com/watch?v=uLVRZE8OAI4", "English","Spanish"],
+                        ["https://www.youtube.com/watch?v=s5XvjAC7ai8", "Russian","Italian"],
                         ["https://www.youtube.com/watch?v=fkGCLIQx1MI", "English","Russian"],
                         ["https://www.youtube.com/watch?v=aDGY4ezFR_0", "Italian","English"],
+                        ["https://www.youtube.com/watch?v=s5XvjAC7ai8", "Russian","English"],
                         ["https://www.youtube.com/watch?v=qzzweIQoIOU", "Japanese","English"],
                         ["https://www.youtube.com/watch?v=nOGZvu6tJFE", "German","Spanish"]