Spaces:

Didier
/

Text_translation

Sleeping

App Files Files Community

Didier commited on Sep 19, 2024

Commit

b10cb1c

1 Parent(s): faad283

Add spaces

Browse files

Files changed (1) hide show

app.py +16 -17

app.py CHANGED Viewed

@@ -68,17 +68,6 @@ def build_text_chunks(text, src_lang, sents_per_chunk):
     # Append last chunk
     if chunk:
         chunks.append(chunk)
-    # !!! SKIP splitting of text into chunks for now !!!
-    # Might not be reliable for non-European languages.
-    #chunks = [text, ]
-    # NOTE: The 'fa' (Persian) model has multiple target languages to choose from.
-    # We need to specifiy the desired languages among: fra ita por ron spa
-    #   https://huggingface.co/Helsinki-NLP/opus-mt-tc-big-fa-itc
-    # Prepend text with >>fra<< in order to translate in French.
-    if src_lang == 'fa':
-        chunks = [">>fra<< " + chunk for chunk in chunks]
     return chunks
@@ -93,6 +82,14 @@ def translate_with_model(
     # Translate chunks
     translated_chunks = []
     for chunk in chunks:
         inputs = tokenizer(
             chunk, return_tensors="pt",
             max_length=input_max_length,
@@ -112,10 +109,12 @@ def translate_with_model(
     return '\n'.join(translated_chunks)
 def detect_language(text):
     lang = langdetect.detect(text)
     return lang
 def translate_with_bilingual_model(
         text, src_lang, tgt_lang, sents_per_chunk
     ):
@@ -134,7 +133,7 @@ def translate_with_bilingual_model(
     return translated_text_bilingual_model
-#@spaces.GPU
 def translate_with_m2m100_model(
         text: str,
         src_lang: str,
@@ -144,18 +143,17 @@ def translate_with_m2m100_model(
     Translate with the m2m100 model
     """
     tokenizer_m2m100.src_lang = src_lang
-    input_ids = tokenizer_m2m100(text, return_tensors="pt").input_ids.to(
-                model_m2m100.device)
     outputs = model_m2m100.generate(
         input_ids=input_ids,
-        forced_bos_token_id=tokenizer_m2m100.get_lang_id(tgt_lang)
-    )
     translated_text = tokenizer_m2m100.batch_decode(
         outputs[0], skip_special_tokens=True)
     return translated_text
-#@spaces.GPU
 def translate_with_multilingual_model(
         text: str,
         tgt_lang: str,
@@ -184,6 +182,7 @@ def translate_with_multilingual_model(
     return '\n'.join(translated_chunks)
 def translate_text(
         text: str,
         src_lang: str=None,

     # Append last chunk
     if chunk:
         chunks.append(chunk)
     return chunks
     # Translate chunks
     translated_chunks = []
     for chunk in chunks:
+        # NOTE: The 'fa' (Persian) model has multiple target languages to choose from.
+        # We need to specifiy the desired languages among: fra ita por ron spa
+        #   https://huggingface.co/Helsinki-NLP/opus-mt-tc-big-fa-itc
+        # Prepend text with >>fra<< in order to translate in French.
+        if src_lang == 'fa':
+            chunk = ">>fra<< " + chunk
         inputs = tokenizer(
             chunk, return_tensors="pt",
             max_length=input_max_length,
     return '\n'.join(translated_chunks)
 def detect_language(text):
     lang = langdetect.detect(text)
     return lang
 def translate_with_bilingual_model(
         text, src_lang, tgt_lang, sents_per_chunk
     ):
     return translated_text_bilingual_model
+@spaces.GPU
 def translate_with_m2m100_model(
         text: str,
         src_lang: str,
     Translate with the m2m100 model
     """
     tokenizer_m2m100.src_lang = src_lang
+    input_ids = tokenizer_m2m100(
+        text, return_tensors="pt").input_ids.to(model_m2m100.device)
     outputs = model_m2m100.generate(
         input_ids=input_ids,
+        forced_bos_token_id=tokenizer_m2m100.get_lang_id(tgt_lang))
     translated_text = tokenizer_m2m100.batch_decode(
         outputs[0], skip_special_tokens=True)
     return translated_text
+@spaces.GPU
 def translate_with_multilingual_model(
         text: str,
         tgt_lang: str,
     return '\n'.join(translated_chunks)
 def translate_text(
         text: str,
         src_lang: str=None,