Spaces:

AriNubar
/

hyw-en-demo

Running

App Files Files Community

AriNubar commited on Dec 20, 2023

Commit

23c1bff

1 Parent(s): 8f9ec55

fix flagging

Browse files

Files changed (1) hide show

app.py +60 -8

app.py CHANGED Viewed

@@ -1,12 +1,25 @@
-# coding: utf-8
 import gradio as gr
 import os
 from translation import Translator, LANGUAGES
 LANGUAGES_LIST = list(LANGUAGES.keys())
 HF_TOKEN = os.environ.get('HF_TOKEN')
 def translate_wrapper(text, src_lang, tgt_lang, by_sentence=True, clean=True, num_beams=4):
     if src_lang in ["", None, []] or tgt_lang in ["", None, []]:
         return "Ընտրեցէք թարգմանութեան կողմերը | Please select source and target languages"
@@ -21,7 +34,46 @@ def translate_wrapper(text, src_lang, tgt_lang, by_sentence=True, clean=True, nu
     return result
-hf_writer = gr.HuggingFaceDatasetSaver(HF_TOKEN, "AriNubar/hyw-en-crowd-source")
 theme = gr.themes.Default().set(
@@ -35,7 +87,7 @@ with gr.Blocks(title="Արեւմտահայերէն-Անգլերէն Մեքենա
     """
     # Արեւմտահայերէն-Անգլերէն Մեքենական Թարգմանիչ | Western Armenian-English Machine Translation
-    Հոս կը ցուցադրուի առաջին արեւմտահայերէն-անգլերէն մեքենական թարգմանիչը, որ կարուցուած է Մեթայի (Ֆեյսպուքի) 'No Language Left Behind' տիպարի հիման վրայ։ Թարգմանութեան տիպարը կ'աշխատի CPU-ի մը մէջ, ուրեմն նախադասութեան մը թարգմանութիւնը կրնայ տեւել մօտաւորապէս 40-60 երկվայրկեան։ Ձեր գնահատութիւնները եւ քննադատութիւնները շատ կարեւոր են տիպարի թարգմանութեան որակը բարելաւելու համար։ Շնորհակալութիւն Գալուստ Կիւլպէնկեան Հիմնադրամին, որուն աջակցութեամբ այս նախագիծը իրականացուեցաւ։
     This is the demo of the first Western Armenian-English neural machine translation system which is based on Meta's 'No Language Left Behind' model. The model runs on a CPU, so it might take approximately 40-60 seconds to translate a single sentence. Your feedback and comments are very important for us to improve the quality of the translation. Thanks to the Calouste Gulbenkian Foundation for making this project possible with their support.
     """
@@ -69,11 +121,11 @@ with gr.Blocks(title="Արեւմտահայերէն-Անգլերէն Մեքենա
     translate_btn.click(translate_wrapper, inputs=[text, src_lang, tgt_lang, by_sentence, clean, num_beams], outputs=translated)
-    hf_writer.setup([src_lang, tgt_lang, text, translated, by_sentence, clean, num_beams, flag_bad_btn], "flagged_data_points")
-    flag_good_btn.click(lambda *args: hf_writer.flag(args), [src_lang, tgt_lang, text, translated, by_sentence, clean, num_beams, flag_good_btn], None, preprocess=False)
-    flag_average_btn.click(lambda *args: hf_writer.flag(args), [src_lang, tgt_lang, text, translated, by_sentence, clean, num_beams, flag_average_btn], None, preprocess=False)
-    flag_bad_btn.click(lambda *args: hf_writer.flag(args), [src_lang, tgt_lang, text, translated, by_sentence, clean, num_beams, flag_bad_btn], None, preprocess=False)

+# coding: utf-8
 import gradio as gr
 import os
+import json
+from pathlib import Path
+from datetime import datetime
+from huggingface_hub import CommitScheduler
 from translation import Translator, LANGUAGES
 LANGUAGES_LIST = list(LANGUAGES.keys())
 HF_TOKEN = os.environ.get('HF_TOKEN')
+JSON_DATASET_DIR = Path("flagged_data")
+JSON_DATASET_DIR.mkdir(exist_ok=True, parents=True)
+JSON_DATASET_PATH = JSON_DATASET_DIR / "dataset.json"
 def translate_wrapper(text, src_lang, tgt_lang, by_sentence=True, clean=True, num_beams=4):
     if src_lang in ["", None, []] or tgt_lang in ["", None, []]:
         return "Ընտրեցէք թարգմանութեան կողմերը | Please select source and target languages"
     return result
+# hf_writer = gr.HuggingFaceDatasetSaver(HF_TOKEN, "AriNubar/hyw-en-crowd-source")
+scheduler = CommitScheduler(
+    repo_id="AriNubar/hyw-en-crowd-source",
+    repo_type="dataset",
+    folder_path=JSON_DATASET_DIR,
+    path_in_repo="collected_data",
+    token=HF_TOKEN,
+    every=1 # every 1 minute
+)
+TQS = {
+    "😊 Լաւ | Good": "good",
+    "😐 Միջակ | Average": "average",
+    "☹️ Վատ | Bad": "bad"
+}
+def save_json(src_lang, tgt_lang, input_text, output_text, by_sentence, clean, num_beams, translation_quality):
+    if any([src_lang in ["", None, []], tgt_lang in ["", None, []], input_text in ["", None, []], output_text in ["", None, []]]):
+        return
+    src_lang = LANGUAGES.get(src_lang)
+    tgt_lang = LANGUAGES.get(tgt_lang)
+    translation_quality = TQS.get(translation_quality)
+    # print(src_lang, tgt_lang, input_text, output_text, by_sentence, clean, num_beams, translation_quality)
+    # print(type(src_lang), type(tgt_lang), type(input_text), type(output_text), type(by_sentence), type(clean), type(num_beams), type(translation_quality))
+    data = {
+        "src_lang": src_lang,
+        "tgt_lang": tgt_lang,
+        "original": input_text,
+        "translation": output_text,
+        "by_sentence": by_sentence,
+        "clean": clean,
+        "num_beams": num_beams,
+        "translation_quality": translation_quality,
+        "timestamp": datetime.now().isoformat()
+    }
+    with scheduler.lock:
+        with open(JSON_DATASET_PATH, "a", encoding="utf8") as f:
+            f.write(json.dumps(data, ensure_ascii=False) + "\n")
 theme = gr.themes.Default().set(
     """
     # Արեւմտահայերէն-Անգլերէն Մեքենական Թարգմանիչ | Western Armenian-English Machine Translation
+    Հոս կը ցուցադրուի առաջին արեւմտահայերէն-անգլերէն մեքենական թարգմանիչը, որ կարուցուած է Մեթայի (Ֆեյսպուքի) 'No Language Left Behind' տիպարի հիման վրայ։ Թարգմանութեան տիպարը կ'աշխատի CPU-ի մը մէջ, ուրեմն նախադասութեան մը թարգմանութիւնը կրնայ տեւել մօտաւորապէս 40-60 երկվայրկեան։ Ձեր գնահատութիւնները եւ քննադատութիւնները շատ կարեւոր են տիպարի թարգմանութեան որակը բարելաւելու համար։ Շնորհակալութիւն Գալուստ Կիւլպէնկեան Հիմնարկին, որուն աջակցութեամբ այս նախագիծը իրականացուեցաւ։
     This is the demo of the first Western Armenian-English neural machine translation system which is based on Meta's 'No Language Left Behind' model. The model runs on a CPU, so it might take approximately 40-60 seconds to translate a single sentence. Your feedback and comments are very important for us to improve the quality of the translation. Thanks to the Calouste Gulbenkian Foundation for making this project possible with their support.
     """
     translate_btn.click(translate_wrapper, inputs=[text, src_lang, tgt_lang, by_sentence, clean, num_beams], outputs=translated)
+    # hf_writer.setup([src_lang, tgt_lang, text, translated, by_sentence, clean, num_beams, flag_bad_btn], "flagged_data_points")
+    flag_good_btn.click(save_json, inputs=[src_lang, tgt_lang, text, translated, by_sentence, clean, num_beams, flag_good_btn], outputs=None)
+    flag_average_btn.click(save_json, inputs=[src_lang, tgt_lang, text, translated, by_sentence, clean, num_beams, flag_average_btn], outputs=None)
+    flag_bad_btn.click(save_json, inputs=[src_lang, tgt_lang, text, translated, by_sentence, clean, num_beams, flag_bad_btn], outputs=None)