Spaces:

Enderchef
/

SuperBench-Eval

Running on Zero

App Files Files Community

Enderchef commited on Jun 24

Commit

3d20418

verified ·

1 Parent(s): a319c62

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -32

app.py CHANGED Viewed

@@ -70,8 +70,7 @@ def evaluate(model_id, sample_count, config_name):
             accuracy = correct / len(dataset) * 100
             record = {"model_id": model_id, "subject": subject, "accuracy": accuracy}
             with open("eval.jsonl", "a") as f:
-                f.write(json.dumps(record) + "
-")
             total_correct += correct
             total_samples += len(dataset)
         avg_accuracy = total_correct / total_samples * 100
@@ -96,23 +95,14 @@ def evaluate(model_id, sample_count, config_name):
 def run(model_id, sample_count, config_name):
     score, details = evaluate(model_id, sample_count, config_name)
-    formatted = "
-".join([
-        f"### Question:
-{q}
-**Model Answer:** {o}
-**Expected:** {a}
-**Predicted:** {g}
-**Correct:** {c}"
         for q, o, a, g, c in details
     ])
     accuracy_value = float(score.split()[1][:-1])
     record = {"model_id": model_id, "subject": config_name, "accuracy": accuracy_value}
     with open("eval.jsonl", "a") as f:
-        f.write(json.dumps(record) + "
-")
     return score, formatted
 def save_text(text):
@@ -151,25 +141,24 @@ with gr.Blocks(css="body {font-family: Inter, sans-serif; padding: 1em; max-widt
         leaderboard_table = gr.Dataframe(headers=["Model ID", "Average Accuracy"], interactive=False, datatype=["str", "number"], row_count=20, col_count=2)
     def load_leaderboard():
-    try:
-        df = pd.read_json("eval.jsonl", lines=True)
-        df_avg = df.groupby("model_id")["accuracy"].mean().reset_index()
-        df_avg.columns = ["model_id", "average_accuracy"]
-        df_sorted = df_avg.sort_values(by="average_accuracy", ascending=False)
-        top10 = df_sorted.head(10)
-        fig, ax = plt.subplots()
-        ax.barh(top10['model_id'], top10['average_accuracy'])
-        ax.set_xlabel("Average Accuracy")
-        ax.set_ylabel("Model")
-        ax.set_title("Top 10 Models by Average Accuracy")
-        return fig, df_sorted
-    except Exception as e:
-        return plt.figure(), pd.DataFrame(columns=["model_id", "average_accuracy"])
         except Exception as e:
-            return plt.figure(), pd.DataFrame(columns=["model_id", "subject", "accuracy"])
     demo.load(load_leaderboard, inputs=[], outputs=[leaderboard_plot, leaderboard_table])
-demo.launch()

             accuracy = correct / len(dataset) * 100
             record = {"model_id": model_id, "subject": subject, "accuracy": accuracy}
             with open("eval.jsonl", "a") as f:
+                f.write(json.dumps(record) + "\n") # Fixed: added closing double quote and newline
             total_correct += correct
             total_samples += len(dataset)
         avg_accuracy = total_correct / total_samples * 100
 def run(model_id, sample_count, config_name):
     score, details = evaluate(model_id, sample_count, config_name)
+    formatted = "\n\n".join([
+        f"### Question:\n{q}\n\n**Model Answer:** {o}\n**Expected:** {a}\n**Predicted:** {g}\n**Correct:** {c}"
         for q, o, a, g, c in details
     ])
     accuracy_value = float(score.split()[1][:-1])
     record = {"model_id": model_id, "subject": config_name, "accuracy": accuracy_value}
     with open("eval.jsonl", "a") as f:
+        f.write(json.dumps(record) + "\n") # Fixed: added closing double quote and newline
     return score, formatted
 def save_text(text):
         leaderboard_table = gr.Dataframe(headers=["Model ID", "Average Accuracy"], interactive=False, datatype=["str", "number"], row_count=20, col_count=2)
     def load_leaderboard():
+        try:
+            df = pd.read_json("eval.jsonl", lines=True)
+            df_avg = df.groupby("model_id")["accuracy"].mean().reset_index()
+            df_avg.columns = ["model_id", "average_accuracy"]
+            df_sorted = df_avg.sort_values(by="average_accuracy", ascending=False)
+            top10 = df_sorted.head(10)
+            fig, ax = plt.subplots()
+            ax.barh(top10['model_id'], top10['average_accuracy'])
+            ax.set_xlabel("Average Accuracy")
+            ax.set_ylabel("Model")
+            ax.set_title("Top 10 Models by Average Accuracy")
+            return fig, df_sorted
         except Exception as e:
+            # Handle the case where eval.jsonl might not exist yet
+            return plt.figure(), pd.DataFrame(columns=["model_id", "average_accuracy"]) # Corrected columns
     demo.load(load_leaderboard, inputs=[], outputs=[leaderboard_plot, leaderboard_table])
+demo.launch()