R-PRM-Demo

Sleeping

App Files Files Community

kevinpro commited on Jul 18

Commit

51be568

verified ·

1 Parent(s): 3716781

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -28

app.py CHANGED Viewed

@@ -54,10 +54,6 @@ def translate(text: str, src_lang: str, tgt_lang: str):
 # Only assign GPU if cache not used
 @spaces.GPU
 def _translate(text: str, src_lang: str, tgt_lang: str):
-    src_code = code_mapping[src_lang]
-    tgt_code = code_mapping[tgt_lang]
-    tokenizer.src_lang = src_code
-    tokenizer.tgt_lang = tgt_code
     # normalizing the punctuation first
     text = punct_normalizer.normalize(text)
@@ -66,31 +62,27 @@ def _translate(text: str, src_lang: str, tgt_lang: str):
     translated_paragraphs = []
     for paragraph in paragraphs:
-        splitter = get_language_specific_sentence_splitter(src_code)
-        sentences = list(splitter(paragraph))
         translated_sentences = []
-        for sentence in sentences:
-            input_tokens = (
-                tokenizer(sentence, return_tensors="pt")
-                .input_ids[0]
-                .cpu()
-                .numpy()
-                .tolist()
-            )
-            translated_chunk = model.generate(
-                input_ids=torch.tensor([input_tokens]).to(device),
-                forced_bos_token_id=tokenizer.convert_tokens_to_ids(tgt_code),
-                max_length=len(input_tokens) + 50,
-                num_return_sequences=1,
-                num_beams=5,
-                no_repeat_ngram_size=4,  # repetition blocking works better if this number is below num_beams
-                renormalize_logits=True,  # recompute token probabilities after banning the repetitions
-            )
-            translated_chunk = tokenizer.decode(
-                translated_chunk[0], skip_special_tokens=True
-            )
-            translated_sentences.append(translated_chunk)
         translated_paragraph = " ".join(translated_sentences)
         translated_paragraphs.append(translated_paragraph)

 # Only assign GPU if cache not used
 @spaces.GPU
 def _translate(text: str, src_lang: str, tgt_lang: str):
     # normalizing the punctuation first
     text = punct_normalizer.normalize(text)
     translated_paragraphs = []
     for paragraph in paragraphs:
         translated_sentences = []
+        input_tokens = (
+            tokenizer("Translate to Chinese:\n\n" + paragraph, return_tensors="pt")
+            .input_ids[0]
+            .cpu()
+            .numpy()
+            .tolist()
+        )
+        translated_chunk = model.generate(
+            input_ids=torch.tensor([input_tokens]).to(device),
+            forced_bos_token_id=tokenizer.convert_tokens_to_ids(tgt_code),
+            max_length=len(input_tokens) + 50,
+            num_return_sequences=1,
+            num_beams=5,
+            no_repeat_ngram_size=4,  # repetition blocking works better if this number is below num_beams
+            renormalize_logits=True,  # recompute token probabilities after banning the repetitions
+        )
+        translated_chunk = tokenizer.decode(
+            translated_chunk[0], skip_special_tokens=True
+        )
+        translated_sentences.append(translated_chunk)
         translated_paragraph = " ".join(translated_sentences)
         translated_paragraphs.append(translated_paragraph)