Ibrahemqasim
/

enwiki_to_arwiki_categories

Wikipedia_Categories

Model card Files Files and versions Community

Ibrahemqasim commited on Mar 13

Commit

4cf98f3

·

verified ·

1 Parent(s): f7d8dff

Update fix langlinks.py

Files changed (1) hide show

fix langlinks.py +20 -13

fix langlinks.py CHANGED Viewed

@@ -21,6 +21,13 @@ countries = response2.json()
 # تحويل القاموس إلى قائمة من القواميس [{ "en": "value", "ar": "value" }, ...]
 data_lists = {
     "langlinks" : {},
     "filtered_data" : {},
@@ -59,7 +66,7 @@ for tab in tqdm.tqdm(data):
         value2 = value.replace(value_digits.group(), "2000")
         # ---
         # data_lists["cats_2000"].append({"en": key2, "ar": value2})
-        data_lists["cats_2000"][key] = value
         # ----
         for en_c, ar_c in countries.items():
             if en_c in key2 and ar_c in value2:
@@ -71,7 +78,17 @@ for tab in tqdm.tqdm(data):
 print(f"all data len: {len(data):,}.")
-for x, data_list in data_lists.items():
     data_list = [{"en": key, "ar": value} for key, value in data_list.items()]
     # حفظ القاموس المصحح في ملف JSON
@@ -89,17 +106,7 @@ for x, data_list in data_lists.items():
         # repo_type="dataset",  # نوع المستودع (نستخدم dataset للملفات)
     )
-print("____________________________")
-datasets_list = {
-    "langlinks" : "categories_en2ar",
-    "filtered_data" : "categories_en2ar_with_years",
-    "cats_2000_contry" : "categories_en2ar-cats_2000_contry",
-    "cats_2000" : "categories_en2ar-cats_2000",
-}
-for x, data_list in data_lists.items():
-    data_list = [{"en": key, "ar": value} for key, value in data_list.items()]
     set_name = datasets_list.get(x)

 # تحويل القاموس إلى قائمة من القواميس [{ "en": "value", "ar": "value" }, ...]
+to_work = [
+    # "langlinks",
+    # "filtered_data",
+    # "cats_2000_contry",
+    "cats_2000",
+]
 data_lists = {
     "langlinks" : {},
     "filtered_data" : {},
         value2 = value.replace(value_digits.group(), "2000")
         # ---
         # data_lists["cats_2000"].append({"en": key2, "ar": value2})
+        data_lists["cats_2000"][key2] = value2
         # ----
         for en_c, ar_c in countries.items():
             if en_c in key2 and ar_c in value2:
 print(f"all data len: {len(data):,}.")
+datasets_list = {
+    "langlinks" : "categories_en2ar",
+    "filtered_data" : "categories_en2ar_with_years",
+    "cats_2000_contry" : "categories_en2ar-cats_2000_contry",
+    "cats_2000" : "categories_en2ar-cats_2000",
+}
+# for x, data_list in data_lists.items():
+for x in to_work:
+    data_list = data_lists.get(x)
+    # ---
     data_list = [{"en": key, "ar": value} for key, value in data_list.items()]
     # حفظ القاموس المصحح في ملف JSON
         # repo_type="dataset",  # نوع المستودع (نستخدم dataset للملفات)
     )
+    print("____________________________")
     set_name = datasets_list.get(x)