Spaces:

atlasia
/

Open-Arabic-Dialect-Identification-Leaderboard

Running

App Files Files Community

BounharAbdelaziz commited on Dec 27, 2024

Commit

fdfa8a9

verified ·

1 Parent(s): 029f92c

Implemented one-vs-all leaderboard

Browse files

Files changed (4) hide show

app.py +49 -28
darija_leaderboard_multilingual.json +1 -1376
requirements.txt +6 -5
utils.py +197 -49

app.py CHANGED Viewed

@@ -1,17 +1,19 @@
-import os
-import pandas as pd
 from utils import (
     update_leaderboard_multilingual,
     handle_evaluation,
     process_results_file,
     create_html_image,
 )
 from datasets import load_dataset
 import gradio as gr
 if __name__ == "__main__":
     # Evaluation dataset path
-    DATA_PATH = "atlasia/No-Arabic-Dialect-Left-Behind-Filtered-Balanced"
     # All Metrics
     metrics = [
         'f1_score',
@@ -43,9 +45,12 @@ if __name__ == "__main__":
     # Load test dataset
     test_dataset = load_dataset(DATA_PATH, split='test')
-    # Supported dialects
-    supported_dialects = list(test_dataset.unique("dialect")) + ['All']
     with gr.Blocks() as app:
         base_path = os.path.dirname(__file__)
         local_image_path = os.path.join(base_path, 'open_arabic_lid_arena.png')
@@ -99,25 +104,26 @@ if __name__ == "__main__":
                         A kind of one-vs-all approach for evaluating LID models across multiple arabic dialects.
                         Computes the `false_positive_rate` of different models for a given target language.
                         This should help you understand how well a model can identify a specific dialect by
-                        showing how often it misclassifies other dialects as the target dialect.
                         """
             )
-            with gr.Column(scale=1):
-                gr.Markdown("### Select target language")
-                target_language_selector = gr.Dropdown(
-                    choices=supported_dialects,
-                    value='Morocco', # Default to Morocco of course
-                    label="Target Language"
-                )
-            with gr.Column(scale=2):
-                gr.Markdown("### Select Languages to display")
-                languages_checkboxes = gr.CheckboxGroup(
-                    choices=supported_dialects,
-                    value=default_languages,
-                    label="Languages"
-                )
             with gr.Row():
                 binary_leaderboard_table = gr.DataFrame(
@@ -135,7 +141,14 @@ if __name__ == "__main__":
             use_mapping = gr.Checkbox(label="Does not map to country")
             eval_button = gr.Button("Evaluate", value=False)  # Initially disabled
-            eval_button.click(handle_evaluation, inputs=[model_path, model_path_bin, use_mapping], outputs=[leaderboard_table])
         with gr.Tab("Upload your results"):
@@ -160,8 +173,10 @@ if __name__ == "__main__":
             ```
             """
             gr.Markdown("## Upload your results to the leaderboard 🚀")
             gr.Markdown("### Submission guidelines: Run the test dataset on your model and save the results in a CSV file. Bellow a code snippet to help you with that.")
             gr.Markdown(code_snippet)
             uploaded_model_name = gr.Textbox(label="Model name", placeholder='Your model/team name')
@@ -184,18 +199,24 @@ if __name__ == "__main__":
         # Update binary table when any input changes
         target_language_selector.change(
-            update_leaderboard_multilingual,
-            inputs=[country_selector, metric_checkboxes],
-            outputs=leaderboard_table
         )
         languages_checkboxes.change(
-            update_leaderboard_multilingual,
-            inputs=[country_selector, metric_checkboxes],
-            outputs=leaderboard_table
         )
         # Define load event to run at startup
         app.load(
             update_leaderboard_multilingual,
             inputs=[country_selector, metric_checkboxes],

 from utils import (
     update_leaderboard_multilingual,
+    update_leaderboard_one_vs_all,
     handle_evaluation,
     process_results_file,
     create_html_image,
 )
+import os
 from datasets import load_dataset
 import gradio as gr
 if __name__ == "__main__":
     # Evaluation dataset path
+    DATA_PATH = "atlasia/Arabic-LID-Leaderboard"
     # All Metrics
     metrics = [
         'f1_score',
     # Load test dataset
     test_dataset = load_dataset(DATA_PATH, split='test')
+    # Supported dialects
+    all_target_languages = list(test_dataset.unique("dialect"))
+    supported_dialects = all_target_languages + ['All']
+    languages_to_display_one_vs_all = all_target_languages # everything except All
     with gr.Blocks() as app:
         base_path = os.path.dirname(__file__)
         local_image_path = os.path.join(base_path, 'open_arabic_lid_arena.png')
                         A kind of one-vs-all approach for evaluating LID models across multiple arabic dialects.
                         Computes the `false_positive_rate` of different models for a given target language.
                         This should help you understand how well a model can identify a specific dialect by
+                        showing **how often it misclassifies other dialects as the target dialect**.
                         """
             )
+            with gr.Row():
+                with gr.Column(scale=1):
+                    gr.Markdown("### Select your target language")
+                    target_language_selector = gr.Dropdown(
+                        choices=languages_to_display_one_vs_all,
+                        value='Morocco', # Default to Morocco of course
+                        label="Target Language"
+                    )
+                with gr.Column(scale=2):
+                    gr.Markdown("### Select languages to compare to")
+                    languages_checkboxes = gr.CheckboxGroup(
+                        choices=languages_to_display_one_vs_all,
+                        value=default_languages,
+                        label="Languages"
+                    )
             with gr.Row():
                 binary_leaderboard_table = gr.DataFrame(
             use_mapping = gr.Checkbox(label="Does not map to country")
             eval_button = gr.Button("Evaluate", value=False)  # Initially disabled
+            # Status message area
+            status_message = gr.Markdown(value="")
+            def update_status_message():
+                return "### **⚠️Evaluating... Please wait...**"
+            eval_button.click(update_status_message, outputs=[status_message])
+            eval_button.click(handle_evaluation, inputs=[model_path, model_path_bin, use_mapping], outputs=[leaderboard_table, status_message])
         with gr.Tab("Upload your results"):
             ```
             """
             gr.Markdown("## Upload your results to the leaderboard 🚀")
             gr.Markdown("### Submission guidelines: Run the test dataset on your model and save the results in a CSV file. Bellow a code snippet to help you with that.")
+            gr.Markdown("### Nota Bene: The One-vs-All leaderboard evaluation is currently unavailable with the csv upload but will be implemented soon. Stay tuned!")
             gr.Markdown(code_snippet)
             uploaded_model_name = gr.Textbox(label="Model name", placeholder='Your model/team name')
         # Update binary table when any input changes
         target_language_selector.change(
+            update_leaderboard_one_vs_all,
+            inputs=[target_language_selector, languages_checkboxes],
+            outputs=[binary_leaderboard_table, languages_checkboxes]
         )
         languages_checkboxes.change(
+            update_leaderboard_one_vs_all,
+            inputs=[target_language_selector, languages_checkboxes],
+            outputs=[binary_leaderboard_table, languages_checkboxes]
         )
         # Define load event to run at startup
+        app.load(
+            update_leaderboard_one_vs_all,
+            inputs=[target_language_selector, languages_checkboxes],
+            outputs=[binary_leaderboard_table, languages_checkboxes]
+        )
         app.load(
             update_leaderboard_multilingual,
             inputs=[country_selector, metric_checkboxes],

darija_leaderboard_multilingual.json CHANGED Viewed

@@ -1,1378 +1,3 @@
 [
-    {
-        "MSA": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.9749,
-                "precision": 0.9908,
-                "recall": 0.9594,
-                "specificity": 0.9942,
-                "false_positive_rate": 0.0058,
-                "false_negative_rate": 0.0406,
-                "negative_predictive_value": 0.974,
-                "n_test_samples": 54390
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.9554,
-                "precision": 0.9252,
-                "recall": 0.9876,
-                "specificity": 0.9478,
-                "false_positive_rate": 0.0522,
-                "false_negative_rate": 0.0124,
-                "negative_predictive_value": 0.9915,
-                "n_test_samples": 54390
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.9264,
-                "precision": 0.9359,
-                "recall": 0.9172,
-                "specificity": 0.9589,
-                "false_positive_rate": 0.0411,
-                "false_negative_rate": 0.0828,
-                "negative_predictive_value": 0.9465,
-                "n_test_samples": 54390
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.6047,
-                "n_test_samples": 54390
-            }
-        }
-    },
-    {
-        "Pakistan": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.9963,
-                "precision": 0.9999,
-                "recall": 0.9927,
-                "specificity": 0.9999,
-                "false_positive_rate": 0.0001,
-                "false_negative_rate": 0.0073,
-                "negative_predictive_value": 0.9958,
-                "n_test_samples": 50000
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.999,
-                "precision": 0.9989,
-                "recall": 0.9991,
-                "specificity": 0.9994,
-                "false_positive_rate": 0.0006,
-                "false_negative_rate": 0.0009,
-                "negative_predictive_value": 0.9995,
-                "n_test_samples": 50000
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.9927,
-                "precision": 0.9928,
-                "recall": 0.9925,
-                "specificity": 0.9959,
-                "false_positive_rate": 0.0041,
-                "false_negative_rate": 0.0075,
-                "negative_predictive_value": 0.9957,
-                "n_test_samples": 50000
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.6366,
-                "n_test_samples": 50000
-            }
-        }
-    },
-    {
-        "Morocco": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.8789,
-                "precision": 0.8624,
-                "recall": 0.8961,
-                "specificity": 0.9771,
-                "false_positive_rate": 0.0229,
-                "false_negative_rate": 0.1039,
-                "negative_predictive_value": 0.9832,
-                "n_test_samples": 19005
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.7172,
-                "precision": 0.9038,
-                "recall": 0.5945,
-                "specificity": 0.9899,
-                "false_positive_rate": 0.0101,
-                "false_negative_rate": 0.4055,
-                "negative_predictive_value": 0.9384,
-                "n_test_samples": 19005
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.6146,
-                "precision": 0.7279,
-                "recall": 0.5318,
-                "specificity": 0.9681,
-                "false_positive_rate": 0.0319,
-                "false_negative_rate": 0.4682,
-                "negative_predictive_value": 0.9281,
-                "n_test_samples": 19005
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.8986,
-                "precision": 0.9166,
-                "recall": 0.8812,
-                "specificity": 0.9871,
-                "false_positive_rate": 0.0129,
-                "false_negative_rate": 0.1188,
-                "negative_predictive_value": 0.9811,
-                "n_test_samples": 19005
-            }
-        }
-    },
-    {
-        "Egypt": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.5929,
-                "precision": 0.5835,
-                "recall": 0.6025,
-                "specificity": 0.993,
-                "false_positive_rate": 0.007,
-                "false_negative_rate": 0.3975,
-                "negative_predictive_value": 0.9935,
-                "n_test_samples": 2204
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.6028,
-                "precision": 0.4837,
-                "recall": 0.7999,
-                "specificity": 0.9861,
-                "false_positive_rate": 0.0139,
-                "false_negative_rate": 0.2001,
-                "negative_predictive_value": 0.9967,
-                "n_test_samples": 2204
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.4094,
-                "precision": 0.2663,
-                "recall": 0.8843,
-                "specificity": 0.9603,
-                "false_positive_rate": 0.0397,
-                "false_negative_rate": 0.1157,
-                "negative_predictive_value": 0.998,
-                "n_test_samples": 2204
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.984,
-                "n_test_samples": 2204
-            }
-        }
-    },
-    {
-        "Palestine": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.2511,
-                "precision": 0.3352,
-                "recall": 0.2007,
-                "specificity": 0.9957,
-                "false_positive_rate": 0.0043,
-                "false_negative_rate": 0.7993,
-                "negative_predictive_value": 0.9914,
-                "n_test_samples": 1465
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9894,
-                "n_test_samples": 1465
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9894,
-                "n_test_samples": 1465
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9894,
-                "n_test_samples": 1465
-            }
-        }
-    },
-    {
-        "Levantine": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.1723,
-                "precision": 0.1386,
-                "recall": 0.2275,
-                "specificity": 0.9854,
-                "false_positive_rate": 0.0146,
-                "false_negative_rate": 0.7725,
-                "negative_predictive_value": 0.992,
-                "n_test_samples": 1402
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.1171,
-                "precision": 0.073,
-                "recall": 0.2953,
-                "specificity": 0.9614,
-                "false_positive_rate": 0.0386,
-                "false_negative_rate": 0.7047,
-                "negative_predictive_value": 0.9925,
-                "n_test_samples": 1402
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.1029,
-                "precision": 0.0645,
-                "recall": 0.2532,
-                "specificity": 0.9622,
-                "false_positive_rate": 0.0378,
-                "false_negative_rate": 0.7468,
-                "negative_predictive_value": 0.9921,
-                "n_test_samples": 1402
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9898,
-                "n_test_samples": 1402
-            }
-        }
-    },
-    {
-        "Saudi": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.4382,
-                "precision": 0.3474,
-                "recall": 0.5932,
-                "specificity": 0.9887,
-                "false_positive_rate": 0.0113,
-                "false_negative_rate": 0.4068,
-                "negative_predictive_value": 0.9958,
-                "n_test_samples": 1384
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.3893,
-                "precision": 0.2692,
-                "recall": 0.703,
-                "specificity": 0.9806,
-                "false_positive_rate": 0.0194,
-                "false_negative_rate": 0.297,
-                "negative_predictive_value": 0.9969,
-                "n_test_samples": 1384
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.3436,
-                "precision": 0.2381,
-                "recall": 0.6171,
-                "specificity": 0.9799,
-                "false_positive_rate": 0.0201,
-                "false_negative_rate": 0.3829,
-                "negative_predictive_value": 0.996,
-                "n_test_samples": 1384
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9899,
-                "n_test_samples": 1384
-            }
-        }
-    },
-    {
-        "Jordan": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.2726,
-                "precision": 0.4203,
-                "recall": 0.2017,
-                "specificity": 0.9972,
-                "false_positive_rate": 0.0028,
-                "false_negative_rate": 0.7983,
-                "negative_predictive_value": 0.992,
-                "n_test_samples": 1373
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.99,
-                "n_test_samples": 1373
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.99,
-                "n_test_samples": 1373
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.99,
-                "n_test_samples": 1373
-            }
-        }
-    },
-    {
-        "Algeria": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.5221,
-                "precision": 0.5849,
-                "recall": 0.4714,
-                "specificity": 0.9974,
-                "false_positive_rate": 0.0026,
-                "false_negative_rate": 0.5286,
-                "negative_predictive_value": 0.9959,
-                "n_test_samples": 1067
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.1235,
-                "precision": 0.2751,
-                "recall": 0.0797,
-                "specificity": 0.9984,
-                "false_positive_rate": 0.0016,
-                "false_negative_rate": 0.9203,
-                "negative_predictive_value": 0.9928,
-                "n_test_samples": 1067
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9922,
-                "n_test_samples": 1067
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9922,
-                "n_test_samples": 1067
-            }
-        }
-    },
-    {
-        "UAE": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.3452,
-                "precision": 0.4207,
-                "recall": 0.2926,
-                "specificity": 0.9971,
-                "false_positive_rate": 0.0029,
-                "false_negative_rate": 0.7074,
-                "negative_predictive_value": 0.9948,
-                "n_test_samples": 998
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9927,
-                "n_test_samples": 998
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9927,
-                "n_test_samples": 998
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9927,
-                "n_test_samples": 998
-            }
-        }
-    },
-    {
-        "Mauritania": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.5343,
-                "precision": 0.944,
-                "recall": 0.3726,
-                "specificity": 0.9998,
-                "false_positive_rate": 0.0002,
-                "false_negative_rate": 0.6274,
-                "negative_predictive_value": 0.9957,
-                "n_test_samples": 950
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9931,
-                "n_test_samples": 950
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9931,
-                "n_test_samples": 950
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9931,
-                "n_test_samples": 950
-            }
-        }
-    },
-    {
-        "Yemen": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.223,
-                "precision": 0.5619,
-                "recall": 0.1391,
-                "specificity": 0.9993,
-                "false_positive_rate": 0.0007,
-                "false_negative_rate": 0.8609,
-                "negative_predictive_value": 0.9943,
-                "n_test_samples": 913
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9934,
-                "n_test_samples": 913
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9934,
-                "n_test_samples": 913
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9934,
-                "n_test_samples": 913
-            }
-        }
-    },
-    {
-        "Syria": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.1965,
-                "precision": 0.2126,
-                "recall": 0.1827,
-                "specificity": 0.9971,
-                "false_positive_rate": 0.0029,
-                "false_negative_rate": 0.8173,
-                "negative_predictive_value": 0.9965,
-                "n_test_samples": 591
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9957,
-                "n_test_samples": 591
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9957,
-                "n_test_samples": 591
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9957,
-                "n_test_samples": 591
-            }
-        }
-    },
-    {
-        "Lebanon": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.2699,
-                "precision": 0.2133,
-                "recall": 0.3675,
-                "specificity": 0.9967,
-                "false_positive_rate": 0.0033,
-                "false_negative_rate": 0.6325,
-                "negative_predictive_value": 0.9985,
-                "n_test_samples": 332
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9976,
-                "n_test_samples": 332
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9976,
-                "n_test_samples": 332
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9976,
-                "n_test_samples": 332
-            }
-        }
-    },
-    {
-        "Qatar": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.3145,
-                "precision": 0.2315,
-                "recall": 0.4905,
-                "specificity": 0.9975,
-                "false_positive_rate": 0.0025,
-                "false_negative_rate": 0.5095,
-                "negative_predictive_value": 0.9992,
-                "n_test_samples": 210
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9985,
-                "n_test_samples": 210
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9985,
-                "n_test_samples": 210
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9985,
-                "n_test_samples": 210
-            }
-        }
-    },
-    {
-        "Iraq": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.4075,
-                "precision": 0.3884,
-                "recall": 0.4286,
-                "specificity": 0.999,
-                "false_positive_rate": 0.001,
-                "false_negative_rate": 0.5714,
-                "negative_predictive_value": 0.9992,
-                "n_test_samples": 203
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0098,
-                "precision": 1.0,
-                "recall": 0.0049,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 0.9951,
-                "negative_predictive_value": 0.9985,
-                "n_test_samples": 203
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9985,
-                "n_test_samples": 203
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9985,
-                "n_test_samples": 203
-            }
-        }
-    },
-    {
-        "Libya": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.357,
-                "precision": 0.2621,
-                "recall": 0.5596,
-                "specificity": 0.9978,
-                "false_positive_rate": 0.0022,
-                "false_negative_rate": 0.4404,
-                "negative_predictive_value": 0.9994,
-                "n_test_samples": 193
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9986,
-                "n_test_samples": 193
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9986,
-                "n_test_samples": 193
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9986,
-                "n_test_samples": 193
-            }
-        }
-    },
-    {
-        "Tunisia": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.1851,
-                "precision": 0.1089,
-                "recall": 0.6158,
-                "specificity": 0.993,
-                "false_positive_rate": 0.007,
-                "false_negative_rate": 0.3842,
-                "negative_predictive_value": 0.9995,
-                "n_test_samples": 190
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.1143,
-                "precision": 0.0624,
-                "recall": 0.6737,
-                "specificity": 0.986,
-                "false_positive_rate": 0.014,
-                "false_negative_rate": 0.3263,
-                "negative_predictive_value": 0.9995,
-                "n_test_samples": 190
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.1045,
-                "precision": 0.0564,
-                "recall": 0.7053,
-                "specificity": 0.9837,
-                "false_positive_rate": 0.0163,
-                "false_negative_rate": 0.2947,
-                "negative_predictive_value": 0.9996,
-                "n_test_samples": 190
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9986,
-                "n_test_samples": 190
-            }
-        }
-    },
-    {
-        "Oman": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.1969,
-                "precision": 0.1391,
-                "recall": 0.3368,
-                "specificity": 0.9971,
-                "false_positive_rate": 0.0029,
-                "false_negative_rate": 0.6632,
-                "negative_predictive_value": 0.9991,
-                "n_test_samples": 190
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9986,
-                "n_test_samples": 190
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9986,
-                "n_test_samples": 190
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9986,
-                "n_test_samples": 190
-            }
-        }
-    },
-    {
-        "Kuwait": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.29,
-                "precision": 0.2091,
-                "recall": 0.4728,
-                "specificity": 0.9976,
-                "false_positive_rate": 0.0024,
-                "false_negative_rate": 0.5272,
-                "negative_predictive_value": 0.9993,
-                "n_test_samples": 184
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9987,
-                "n_test_samples": 184
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9987,
-                "n_test_samples": 184
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9987,
-                "n_test_samples": 184
-            }
-        }
-    },
-    {
-        "Bahrain": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.2045,
-                "precision": 0.2069,
-                "recall": 0.2022,
-                "specificity": 0.999,
-                "false_positive_rate": 0.001,
-                "false_negative_rate": 0.7978,
-                "negative_predictive_value": 0.999,
-                "n_test_samples": 178
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9987,
-                "n_test_samples": 178
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9987,
-                "n_test_samples": 178
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9987,
-                "n_test_samples": 178
-            }
-        }
-    },
-    {
-        "Sudan": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.395,
-                "precision": 0.3198,
-                "recall": 0.5163,
-                "specificity": 0.9988,
-                "false_positive_rate": 0.0012,
-                "false_negative_rate": 0.4837,
-                "negative_predictive_value": 0.9995,
-                "n_test_samples": 153
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9989,
-                "n_test_samples": 153
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9989,
-                "n_test_samples": 153
-            },
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_binary_v3_1fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 1.0,
-                "negative_predictive_value": 0.9989,
-                "n_test_samples": 153
-            }
-        }
-    },
-    {
-        "Turkey": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 0.9999,
-                "false_positive_rate": 0.0001,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            }
-        }
-    },
-    {
-        "Turkmenistan": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            }
-        }
-    },
-    {
-        "Uzbekistan": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 0.9999,
-                "false_positive_rate": 0.0001,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            }
-        }
-    },
-    {
-        "Acehnese": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            }
-        }
-    },
-    {
-        "Nigeria": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            }
-        }
-    },
-    {
-        "Mesopotamia": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 0.9993,
-                "false_positive_rate": 0.0007,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 0.9983,
-                "false_positive_rate": 0.0017,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 0.9989,
-                "false_positive_rate": 0.0011,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            }
-        }
-    },
-    {
-        "Afghanistan": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 0.9998,
-                "false_positive_rate": 0.0002,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 0.9999,
-                "false_positive_rate": 0.0001,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 0.9995,
-                "false_positive_rate": 0.0005,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            }
-        }
-    },
-    {
-        "Kurdistan": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 0.9997,
-                "false_positive_rate": 0.0003,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 0.9999,
-                "false_positive_rate": 0.0001,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            }
-        }
-    },
-    {
-        "Kashmir": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 0.9999,
-                "false_positive_rate": 0.0001,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 0.9993,
-                "false_positive_rate": 0.0007,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            }
-        }
-    },
-    {
-        "Iran": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 0.9994,
-                "false_positive_rate": 0.0006,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 0.9999,
-                "false_positive_rate": 0.0001,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            }
-        }
-    },
-    {
-        "Indonesia": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 0.9999,
-                "false_positive_rate": 0.0001,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            }
-        }
-    },
-    {
-        "Guinea": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            }
-        }
-    },
-    {
-        "Chad": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            }
-        }
-    },
-    {
-        "Azerbaijan": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 0.9997,
-                "false_positive_rate": 0.0003,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            },
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 0.9999,
-                "false_positive_rate": 0.0001,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            }
-        }
-    },
-    {
-        "Malaysia": {
-            "atlasia/Sfaya-Moroccan-Darija-vs-All/model_multi_v3_2fpr.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            }
-        }
-    },
-    {
-        "Uighur (China)": {
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            },
-            "laurievb/OpenLID/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            }
-        }
-    },
-    {
-        "Balochistan": {
-            "cis-lmu/glotlid/model.bin": {
-                "f1_score": 0.0,
-                "precision": 0.0,
-                "recall": 0.0,
-                "specificity": 1.0,
-                "false_positive_rate": 0.0,
-                "false_negative_rate": 0.0,
-                "negative_predictive_value": 1.0,
-                "n_test_samples": 0
-            }
-        }
-    }
 ]


1	[
2	+































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































3	]

requirements.txt CHANGED Viewed

@@ -1,5 +1,6 @@
-fasttext
-transformers
-datasets
-pandas
-scikit-learn

+fasttext==0.9.3
+transformers==4.39.2
+datasets==2.18.0
+pandas==2.2.3
+scikit-learn==1.4.2
+numpy==1.26.4

utils.py CHANGED Viewed

@@ -1,24 +1,38 @@
 import base64
-from fasttext import load_model
 from huggingface_hub import hf_hub_download
 import os
 import json
 import pandas as pd
-from sklearn.metrics import precision_score, recall_score, f1_score, confusion_matrix, balanced_accuracy_score, matthews_corrcoef
 import numpy as np
 from datasets import load_dataset
-import fasttext
 # Constants
 MODEL_REPO = "atlasia/Sfaya-Moroccan-Darija-vs-All"
 BIN_FILENAME = "model_multi_v3_2fpr.bin"
 BINARY_LEADERBOARD_FILE = "darija_leaderboard_binary.json"
 MULTILINGUAL_LEADERBOARD_FILE = "darija_leaderboard_multilingual.json"
-DATA_PATH = "atlasia/No-Arabic-Dialect-Left-Behind-Filtered-Balanced"
 target_label = "Morocco"
 is_binary = False
 metrics = [
     'f1_score',
     'precision',
@@ -38,6 +52,16 @@ default_metrics = [
     'false_negative_rate'
 ]
 language_mapping_dict = {
     'ace_Arab': 'Acehnese',
     'acm_Arab': 'Mesopotamia',  # 'Gilit Mesopotamian'
@@ -228,53 +252,87 @@ def run_eval_one_vs_all(model, data_test, TARGET_LANG='Morocco', language_mappin
     out = out.reset_index()
     out = out[out['preds']==TARGET_LANG].drop(columns=['preds', 'size'])
     return out
-def update_darija_binary_leaderboard(result_df, model_name, BINARY_LEADERBOARD_FILE="darija_leaderboard_binary.json"):
     try:
         with open(BINARY_LEADERBOARD_FILE, "r") as f:
             data = json.load(f)
     except FileNotFoundError:
         data = []
     # Process the results for each dialect/country
     for _, row in result_df.iterrows():
-        country = row['dialect']
-        # skip 'Other' class, it is considered as the null space
-        if country == 'Other':
             continue
-        # Find existing country entry or create new one
-        country_entry = next((item for item in data if country in item), None)
-        if country_entry is None:
-            country_entry = {country: {}}
-            data.append(country_entry)
-        # Update the model metrics directly under the model name
-        if country not in country_entry:
-            country_entry[country] = {}
-        country_entry[country][model_name] = float(row['false_positive_rate'])
-        if country_entry[country].get("n_test_samples") is None:
-            country_entry[country]["n_test_samples"] = int(row['size'])
     # Save updated leaderboard data
-    with open(MULTILINGUAL_LEADERBOARD_FILE, "w") as f:
         json.dump(data, f, indent=4)
 def handle_evaluation(model_path, model_path_bin, use_mapping=False):
     # run the evaluation
-    result_df, _ = run_eval(model_path, model_path_bin, language_mapping_dict, use_mapping=use_mapping)
     # set the model name
     model_name = model_path + '/' + model_path_bin
-    # update the leaderboard
     update_darija_multilingual_leaderboard(result_df, model_name, MULTILINGUAL_LEADERBOARD_FILE)
-    # update the leaderboard table
-    df = load_leaderboard_multilingual()
-    return create_leaderboard_display_multilingual(df, 'Morocco', default_metrics)
-def run_eval(model_path, model_path_bin, language_mapping_dict=None, use_mapping=False):
     """Run evaluation on a dataset and compute metrics.
     Args:
@@ -288,21 +346,6 @@ def run_eval(model_path, model_path_bin, language_mapping_dict=None, use_mapping
         pd.DataFrame: A DataFrame containing evaluation metrics.
     """
-    # download model and get the model path
-    model_path = hf_hub_download(repo_id=model_path, filename=model_path_bin, cache_dir=None)
-    # Load the trained model
-    print(f"[INFO] Loading model from Path: {model_path}, using version {model_path_bin}...")
-    model = fasttext.load_model(model_path)
-    # Load the evaluation dataset
-    print(f"[INFO] Loading evaluation dataset from Path: atlasia/No-Arabic-Dialect-Left-Behind-Filtered-Balanced...")
-    eval_dataset = load_dataset("atlasia/No-Arabic-Dialect-Left-Behind-Filtered-Balanced", split='test')
-    # Transform to pandas DataFrame
-    print(f"[INFO] Converting evaluation dataset to Pandas DataFrame...")
-    df_eval = pd.DataFrame(eval_dataset)
     # Predict labels using the model
     print(f"[INFO] Running predictions...")
     df_eval['preds'] = df_eval['text'].apply(lambda text: predict_label(text, model, language_mapping_dict, use_mapping=use_mapping))
@@ -318,7 +361,7 @@ def run_eval(model_path, model_path_bin, language_mapping_dict=None, use_mapping
     return result_df, df_eval
-def process_results_file(file, uploaded_model_name, base_path_save="./atlasia/submissions/"):
     try:
         if file is None:
             return "Please upload a file."
@@ -352,13 +395,14 @@ def process_results_file(file, uploaded_model_name, base_path_save="./atlasia/su
     # Update the leaderboards
     update_darija_multilingual_leaderboard(result_df, uploaded_model_name, MULTILINGUAL_LEADERBOARD_FILE)
-    # result_df_binary = run_eval_one_vs_all(model, data_test, TARGET_LANG='Morocco', language_mapping_dict=None, use_mapping=False)
-    # update_darija_binary_leaderboard(result_df, uploaded_model_name, BINARY_LEADERBOARD_FILE)
     # update the leaderboard table
     df = load_leaderboard_multilingual()
-    return create_leaderboard_display_multilingual(df, 'Morocco', default_metrics)
 def update_darija_multilingual_leaderboard(result_df, model_name, MULTILINGUAL_LEADERBOARD_FILE="darija_leaderboard_multilingual.json"):
@@ -407,6 +451,42 @@ def update_darija_multilingual_leaderboard(result_df, model_name, MULTILINGUAL_L
         json.dump(data, f, indent=4)
 def load_leaderboard_multilingual(MULTILINGUAL_LEADERBOARD_FILE="darija_leaderboard_multilingual.json"):
     current_dir = os.path.dirname(os.path.abspath(__file__))
     MULTILINGUAL_LEADERBOARD_FILE = os.path.join(current_dir, MULTILINGUAL_LEADERBOARD_FILE)
@@ -433,10 +513,36 @@ def load_leaderboard_multilingual(MULTILINGUAL_LEADERBOARD_FILE="darija_leaderbo
     df = pd.DataFrame(rows)
     return df
 def create_leaderboard_display_multilingual(df, selected_country, selected_metrics):
     # Filter by country if specified
     if selected_country and selected_country.upper() != 'ALL':
-        print(f"Filtering leaderboard by country: {selected_country}")
         df = df[df['country'] == selected_country]
         df = df.drop(columns=['country'])
@@ -466,6 +572,15 @@ def update_leaderboard_multilingual(country, selected_metrics):
     display_df = create_leaderboard_display_multilingual(df, country, selected_metrics)
     return display_df
 def encode_image_to_base64(image_path):
     with open(image_path, "rb") as image_file:
         encoded_string = base64.b64encode(image_file.read()).decode()
@@ -485,4 +600,37 @@ def create_html_image(image_path):
         </div>
     </div>
     """
-    return html_string

 import base64
 from huggingface_hub import hf_hub_download
+import fasttext
 import os
 import json
 import pandas as pd
+from sklearn.metrics import (
+    precision_score,
+    recall_score,
+    f1_score,
+    confusion_matrix,
+    balanced_accuracy_score,
+    matthews_corrcoef
+)
 import numpy as np
 from datasets import load_dataset
 # Constants
 MODEL_REPO = "atlasia/Sfaya-Moroccan-Darija-vs-All"
 BIN_FILENAME = "model_multi_v3_2fpr.bin"
 BINARY_LEADERBOARD_FILE = "darija_leaderboard_binary.json"
 MULTILINGUAL_LEADERBOARD_FILE = "darija_leaderboard_multilingual.json"
+DATA_PATH = "atlasia/Arabic-LID-Leaderboard"
 target_label = "Morocco"
 is_binary = False
+# Load test dataset
+test_dataset = load_dataset(DATA_PATH, split='test')
+# Supported dialects
+all_target_languages = list(test_dataset.unique("dialect"))
+supported_dialects = all_target_languages + ['All']
+languages_to_display_one_vs_all = all_target_languages # everything except All
 metrics = [
     'f1_score',
     'precision',
     'false_negative_rate'
 ]
+# default language to display in one-vs-all leaderboard
+default_languages = [
+    'Morocco',
+    'MSA',
+    'Egypt',
+    'Algeria',
+    'Tunisia',
+    'Levantine',
+]
 language_mapping_dict = {
     'ace_Arab': 'Acehnese',
     'acm_Arab': 'Mesopotamia',  # 'Gilit Mesopotamian'
     out = out.reset_index()
     out = out[out['preds']==TARGET_LANG].drop(columns=['preds', 'size'])
+    print(f'out for TARGET_LANG={TARGET_LANG} \n: {out}')
     return out
+def update_darija_one_vs_all_leaderboard(result_df, model_name, target_lang, BINARY_LEADERBOARD_FILE="darija_leaderboard_binary.json"):
     try:
         with open(BINARY_LEADERBOARD_FILE, "r") as f:
             data = json.load(f)
     except FileNotFoundError:
         data = []
     # Process the results for each dialect/country
     for _, row in result_df.iterrows():
+        dialect = row['dialect']
+        # Skip 'Other' class, it is considered as the null space
+        if dialect == 'Other':
             continue
+        # Find existing target_lang entry or create a new one
+        target_entry = next((item for item in data if target_lang in item), None)
+        if target_entry is None:
+            target_entry = {target_lang: {}}
+            data.append(target_entry)
+        # Get the country-specific data for this target language
+        country_data = target_entry[target_lang]
+        # Initialize the dialect/country entry if it doesn't exist
+        if dialect not in country_data:
+            country_data[dialect] = {}
+        # Update the model metrics under the model name for the given dialect
+        country_data[dialect][model_name] = float(row['false_positive_rate'])
+        # # Add the number of test samples, if not already present
+        # if "n_test_samples" not in country_data[dialect]:
+        #     country_data[dialect]["n_test_samples"] = int(row['size'])
     # Save updated leaderboard data
+    with open(BINARY_LEADERBOARD_FILE, "w") as f:
         json.dump(data, f, indent=4)
 def handle_evaluation(model_path, model_path_bin, use_mapping=False):
+    # download model and get the model path
+    model_path = hf_hub_download(repo_id=model_path, filename=model_path_bin, cache_dir=None)
+    # Load the trained model
+    print(f"[INFO] Loading model from Path: {model_path}, using version {model_path_bin}...")
+    model = fasttext.load_model(model_path)
+    # Load the evaluation dataset
+    print(f"[INFO] Loading evaluation dataset from Path: {DATA_PATH}...")
+    eval_dataset = load_dataset(DATA_PATH, split='test')
+    # Transform to pandas DataFrame
+    print(f"[INFO] Converting evaluation dataset to Pandas DataFrame...")
+    df_eval = pd.DataFrame(eval_dataset)
     # run the evaluation
+    result_df, _ = run_eval(model, df_eval, language_mapping_dict, use_mapping=use_mapping)
     # set the model name
     model_name = model_path + '/' + model_path_bin
+    # update the multilingual leaderboard
     update_darija_multilingual_leaderboard(result_df, model_name, MULTILINGUAL_LEADERBOARD_FILE)
+    # # TODO
+    for target_lang in all_target_languages:
+        result_df_one_vs_all =run_eval_one_vs_all(model, df_eval, TARGET_LANG=target_lang, language_mapping_dict=language_mapping_dict, use_mapping=use_mapping)
+        update_darija_one_vs_all_leaderboard(result_df_one_vs_all, model_name, target_lang, BINARY_LEADERBOARD_FILE)
+    # load the updated leaderboard tables
+    df_multilingual = load_leaderboard_multilingual()
+    df_one_vs_all = load_leaderboard_one_vs_all()
+    status_message = "**Evaluation now ended! 🤗**"
+    return create_leaderboard_display_multilingual(df_multilingual, target_label, default_metrics), status_message
+def run_eval(model, df_eval, language_mapping_dict=None, use_mapping=False):
     """Run evaluation on a dataset and compute metrics.
     Args:
         pd.DataFrame: A DataFrame containing evaluation metrics.
     """
     # Predict labels using the model
     print(f"[INFO] Running predictions...")
     df_eval['preds'] = df_eval['text'].apply(lambda text: predict_label(text, model, language_mapping_dict, use_mapping=use_mapping))
     return result_df, df_eval
+def process_results_file(file, uploaded_model_name, base_path_save="./atlasia/submissions/", default_language='Morocco'):
     try:
         if file is None:
             return "Please upload a file."
     # Update the leaderboards
     update_darija_multilingual_leaderboard(result_df, uploaded_model_name, MULTILINGUAL_LEADERBOARD_FILE)
+    # TODO: implement this ove_vs_all differently for people only submitting csv file. They need to submit two files, one for multi-lang and the other for one-vs-all
+    # result_df_one_vs_all = run_eval_one_vs_all(...)
+    # update_darija_one_vs_all_leaderboard(...)
     # update the leaderboard table
     df = load_leaderboard_multilingual()
+    return create_leaderboard_display_multilingual(df, default_language, default_metrics)
 def update_darija_multilingual_leaderboard(result_df, model_name, MULTILINGUAL_LEADERBOARD_FILE="darija_leaderboard_multilingual.json"):
         json.dump(data, f, indent=4)
+def load_leaderboard_one_vs_all(BINARY_LEADERBOARD_FILE="darija_leaderboard_binary.json"):
+    current_dir = os.path.dirname(os.path.abspath(__file__))
+    BINARY_LEADERBOARD_FILE = os.path.join(current_dir, BINARY_LEADERBOARD_FILE)
+    with open(BINARY_LEADERBOARD_FILE, "r") as f:
+        data = json.load(f)
+    # Initialize lists to store the flattened data
+    rows = []
+    # Process each target language's data
+    for leaderboard_data in data:
+        for target_language, results in leaderboard_data.items():
+            for language, models in results.items():
+                for model_name, false_positive_rate in models.items():
+                    row = {
+                        'target_language': target_language,
+                        'language': language,
+                        'model': model_name,
+                        'false_positive_rate': false_positive_rate,
+                    }
+                    # Add all metrics to the row
+                    rows.append(row)
+    # Convert to DataFrame
+    df = pd.DataFrame(rows)
+    # Pivot the DataFrame to create the desired structure: all languages in columns and models in rows, and each (model, target_language, language) = false_positive_rate
+    df_pivot = df.pivot(index=['model', 'target_language'], columns='language', values='false_positive_rate').reset_index()
+    # print(f'df_pivot \n: {df_pivot}')
+    return df_pivot
 def load_leaderboard_multilingual(MULTILINGUAL_LEADERBOARD_FILE="darija_leaderboard_multilingual.json"):
     current_dir = os.path.dirname(os.path.abspath(__file__))
     MULTILINGUAL_LEADERBOARD_FILE = os.path.join(current_dir, MULTILINGUAL_LEADERBOARD_FILE)
     df = pd.DataFrame(rows)
     return df
+def create_leaderboard_display_one_vs_all(df, target_language, selected_languages):
+    # Filter by target_language if specified
+    if target_language:
+        df = df[df['target_language'] == target_language]
+        # Remove the target_language from selected_languages
+        if target_language in selected_languages:
+            selected_languages = [lang for lang in selected_languages if lang != target_language]
+        # Select only the chosen languages (plus 'model' column)
+        columns_to_show = ['model'] + [language for language in selected_languages if language in df.columns]
+    # Sort by first selected metric by default
+    if selected_languages:
+        df = df.sort_values(by=selected_languages[0], ascending=False)
+    df = df[columns_to_show]
+    # Format numeric columns to 4 decimal places
+    numeric_cols = df.select_dtypes(include=['float64']).columns
+    df[numeric_cols] = df[numeric_cols].round(4)
+    return df, selected_languages
 def create_leaderboard_display_multilingual(df, selected_country, selected_metrics):
     # Filter by country if specified
     if selected_country and selected_country.upper() != 'ALL':
+        # print(f"Filtering leaderboard by country: {selected_country}")
         df = df[df['country'] == selected_country]
         df = df.drop(columns=['country'])
     display_df = create_leaderboard_display_multilingual(df, country, selected_metrics)
     return display_df
+def update_leaderboard_one_vs_all(target_language, selected_languages):
+    if not selected_languages:  # If no language selected, show all defaults
+        selected_languages = default_languages
+    df = load_leaderboard_one_vs_all()
+    display_df, selected_languages = create_leaderboard_display_one_vs_all(df, target_language, selected_languages)
+    # to improve visibility in case the user chooses multiple language leading to many columns, the `model` column must remain fixed
+    # display_df = render_fixed_columns(display_df)
+    return display_df, selected_languages
 def encode_image_to_base64(image_path):
     with open(image_path, "rb") as image_file:
         encoded_string = base64.b64encode(image_file.read()).decode()
         </div>
     </div>
     """
+    return html_string
+# Function to render HTML table with fixed 'model' column
+def render_fixed_columns(df):
+    style = """
+    <style>
+    .table-container {
+        overflow-x: auto;
+        position: relative;
+        white-space: nowrap;
+    }
+    table {
+        border-collapse: collapse;
+        width: 100%;
+    }
+    th, td {
+        border: 1px solid black;
+        padding: 8px;
+        text-align: left;
+    }
+    th.fixed, td.fixed {
+        position: sticky;
+        left: 0;
+        background-color: white;
+        z-index: 2;
+    }
+    </style>
+    """
+    table_html = df.to_html(index=False).replace(
+        "<th>model</th>", '<th class="fixed">model</th>'
+    ).replace(
+        '<td>', '<td class="fixed">', 1
+    )
+    return f"{style}<div class='table-container'>{table_html}</div>"