Spaces:

openfree
/

Korean-Exam-Leaderboard

Running

App Files Files Community

openfree commited on Mar 22

Commit

ded31ce

verified ·

1 Parent(s): 4f57346

Update app.py

Browse files

Files changed (1) hide show

app.py +98 -255

app.py CHANGED Viewed

@@ -1,264 +1,107 @@
-#모델명과 url 변경: "src/display/formatting.py" 그리고 src/leaderboard/read_evals.py
-#평가 항목명 변경: "src/about.py"
 import gradio as gr
-from gradio_leaderboard import Leaderboard, ColumnFilter, SelectColumns
 import pandas as pd
-from apscheduler.schedulers.background import BackgroundScheduler
-from huggingface_hub import snapshot_download
-from src.about import (
-    CITATION_BUTTON_LABEL,
-    CITATION_BUTTON_TEXT,
-    EVALUATION_QUEUE_TEXT,
-    INTRODUCTION_TEXT,
-    LLM_BENCHMARKS_TEXT,
-    TITLE,
-)
-from src.display.css_html_js import custom_css
-from src.display.utils import (
-    BENCHMARK_COLS,
-    COLS,
-    EVAL_COLS,
-    EVAL_TYPES,
-    AutoEvalColumn,
-    ModelType,
-    fields,
-    WeightType,
-    Precision
-)
-from src.envs import API, EVAL_REQUESTS_PATH, EVAL_RESULTS_PATH, QUEUE_REPO, REPO_ID, RESULTS_REPO, TOKEN
-from src.populate import get_evaluation_queue_df, get_leaderboard_df
-from src.submission.submit import add_new_eval
-def debug_model_names(df, label="디버그"):
-    """
-    데이터프레임에서 모델 이름 관련 열을 디버깅하기 위한 함수
-    """
-    print(f"===== {label} 디버깅 =====")
-    if df is None or df.empty:
-        print("데이터프레임이 비어있습니다.")
-        return
-    model_cols = [col for col in df.columns if 'model' in col.lower()]
-    if not model_cols:
-        print("모델 관련 열이 없습니다.")
-        return
-    for col in model_cols:
-        print(f"컬럼: {col}")
-        print(df[col].head())
-        print("\n")
-    print("==================\n")
-def restart_space():
-    API.restart_space(repo_id=REPO_ID)
-### Space initialisation
-try:
-    print(EVAL_REQUESTS_PATH)
-    snapshot_download(
-        repo_id=QUEUE_REPO,
-        local_dir=EVAL_REQUESTS_PATH,
-        repo_type="dataset",
-        tqdm_class=None,
-        etag_timeout=30,
-        token=TOKEN
-    )
-except Exception:
-    restart_space()
-try:
-    print(EVAL_RESULTS_PATH)
-    snapshot_download(
-        repo_id=RESULTS_REPO,
-        local_dir=EVAL_RESULTS_PATH,
-        repo_type="dataset",
-        tqdm_class=None,
-        etag_timeout=30,
-        token=TOKEN
-    )
-except Exception:
-    restart_space()
-LEADERBOARD_DF = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS)
-# 디버깅을 위한 코드 (필요시 주석 해제)
-# debug_model_names(LEADERBOARD_DF, "Leaderboard 데이터")
-# 변환 매핑 정의
-benchmark_mapping = {
-    "ANLI": "Korean Bar Exam (Lawyer)",
-    "LogiQA": "Senior Civil Service Examination(국가직 5급)"
 }
-# Leaderboard에 표시될 모델 타입 컬럼 변환 (컬럼 이름은 AutoEvalColumn.model_type.name로 가정)
-model_type_column = AutoEvalColumn.model_type.name
-if model_type_column in LEADERBOARD_DF.columns:
-    LEADERBOARD_DF[model_type_column] = LEADERBOARD_DF[model_type_column].apply(lambda s: benchmark_mapping.get(s, s))
-(
-    finished_eval_queue_df,
-    running_eval_queue_df,
-    pending_eval_queue_df,
-) = get_evaluation_queue_df(EVAL_REQUESTS_PATH, EVAL_COLS)
-# 디버깅을 위한 코드 (필요시 주석 해제)
-# debug_model_names(finished_eval_queue_df, "완료된 평가 큐")
-# debug_model_names(running_eval_queue_df, "실행 중인 평가 큐")
-# debug_model_names(pending_eval_queue_df, "대기 중인 평가 큐")
-def init_leaderboard(dataframe):
-    if dataframe is None or dataframe.empty:
-        raise ValueError("Leaderboard DataFrame is empty or None.")
-    return Leaderboard(
-        value=dataframe,
-        datatype=[c.type for c in fields(AutoEvalColumn)],
-        select_columns=SelectColumns(
-            default_selection=[c.name for c in fields(AutoEvalColumn) if c.displayed_by_default],
-            cant_deselect=[c.name for c in fields(AutoEvalColumn) if c.never_hidden],
-            label="Select Columns to Display:",
-        ),
-        search_columns=[AutoEvalColumn.model.name, AutoEvalColumn.license.name],
-        hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
-        filter_columns=[
-            ColumnFilter(AutoEvalColumn.model_type.name, type="checkboxgroup", label="Model types"),
-            ColumnFilter(AutoEvalColumn.precision.name, type="checkboxgroup", label="Precision"),
-            ColumnFilter(
-                AutoEvalColumn.params.name,
-                type="slider",
-                min=0.01,
-                max=150,
-                label="Select the number of parameters (B)",
-            ),
-            ColumnFilter(
-                AutoEvalColumn.still_on_hub.name, type="boolean", label="Deleted/incomplete", default=True
-            ),
-        ],
-        bool_checkboxgroup_label="Hide models",
-        interactive=False,
-    )
-def get_model_type_display(enum_obj):
-    """
-    ModelType enum 객체를 받아서 변환 매핑에 있으면 해당 값을 반환,
-    없으면 기본 to_str(" : ") 결과를 반환.
     """
-    try:
-        key = enum_obj.name
-    except AttributeError:
-        key = enum_obj.to_str(" : ")
-    return benchmark_mapping.get(key, enum_obj.to_str(" : "))
-demo = gr.Blocks(css=custom_css)
-with demo:
-    gr.HTML(TITLE)
-    gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
-    with gr.Tabs(elem_classes="tab-buttons") as tabs:
-        with gr.TabItem("🏅 LLM Benchmark", elem_id="llm-benchmark-tab-table", id=0):
-            leaderboard = init_leaderboard(LEADERBOARD_DF)
-        with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=2):
-            gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
-        with gr.TabItem("🚀 Submit here! ", elem_id="llm-benchmark-tab-table", id=3):
-            with gr.Column():
-                with gr.Row():
-                    gr.Markdown(EVALUATION_QUEUE_TEXT, elem_classes="markdown-text")
-                with gr.Column():
-                    with gr.Accordion(
-                        f"✅ Finished Evaluations ({len(finished_eval_queue_df)})",
-                        open=False,
-                    ):
-                        with gr.Row():
-                            finished_eval_table = gr.components.Dataframe(
-                                value=finished_eval_queue_df,
-                                headers=EVAL_COLS,
-                                datatype=EVAL_TYPES,
-                                row_count=5,
-                            )
-                    with gr.Accordion(
-                        f"🔄 Running Evaluation Queue ({len(running_eval_queue_df)})",
-                        open=False,
-                    ):
-                        with gr.Row():
-                            running_eval_table = gr.components.Dataframe(
-                                value=running_eval_queue_df,
-                                headers=EVAL_COLS,
-                                datatype=EVAL_TYPES,
-                                row_count=5,
-                            )
-                    with gr.Accordion(
-                        f"⏳ Pending Evaluation Queue ({len(pending_eval_queue_df)})",
-                        open=False,
-                    ):
-                        with gr.Row():
-                            pending_eval_table = gr.components.Dataframe(
-                                value=pending_eval_queue_df,
-                                headers=EVAL_COLS,
-                                datatype=EVAL_TYPES,
-                                row_count=5,
-                            )
-            with gr.Row():
-                gr.Markdown("# ✉️✨ Submit your model here!", elem_classes="markdown-text")
-            with gr.Row():
-                with gr.Column():
-                    model_name_textbox = gr.Textbox(label="Model name")
-                    revision_name_textbox = gr.Textbox(label="Revision commit", placeholder="main")
-                    model_type = gr.Dropdown(
-                        choices=[get_model_type_display(t) for t in ModelType if t != ModelType.Unknown],
-                        label="Model type",
-                        multiselect=False,
-                        value=None,
-                        interactive=True,
-                    )
-                with gr.Column():
-                    precision = gr.Dropdown(
-                        choices=[i.value.name for i in Precision if i != Precision.Unknown],
-                        label="Precision",
-                        multiselect=False,
-                        value="float16",
-                        interactive=True,
-                    )
-                    weight_type = gr.Dropdown(
-                        choices=[i.value.name for i in WeightType],
-                        label="Weights type",
-                        multiselect=False,
-                        value="Original",
-                        interactive=True,
-                    )
-                    base_model_name_textbox = gr.Textbox(label="Base model (for delta or adapter weights)")
-            submit_button = gr.Button("Submit Eval")
-            submission_result = gr.Markdown()
-            submit_button.click(
-                add_new_eval,
-                [
-                    model_name_textbox,
-                    base_model_name_textbox,
-                    revision_name_textbox,
-                    precision,
-                    weight_type,
-                    model_type,
-                ],
-                submission_result,
-            )
-    with gr.Row():
-        with gr.Accordion("📙 Citation", open=False):
-            citation_button = gr.Textbox(
-                value=CITATION_BUTTON_TEXT,
-                label=CITATION_BUTTON_LABEL,
-                lines=20,
-                elem_id="citation-button",
-                show_copy_button=True,
-            )
-scheduler = BackgroundScheduler()
-scheduler.add_job(restart_space, "interval", seconds=1800)
-scheduler.start()
-demo.queue(default_concurrency_limit=40).launch()

 import gradio as gr
 import pandas as pd
+import numpy as np
+# 데이터 정의 (하드코딩)
+data = {
+    "Company/Model": [
+        "Anthropic/Claude 3 Opus",
+        "OpenAI/GPT-4",
+        "Google/Gemini Ultra",
+        "Cohere/Command R+",
+        "Naver/HyperCLOVA X",
+        "Kakao/KoGPT"
+    ],
+    "URL": [
+        "https://www.anthropic.com/claude",
+        "https://openai.com/gpt-4",
+        "https://deepmind.google/technologies/gemini/",
+        "https://cohere.com/models/command-r-plus",
+        "https://clova.ai/hyperclova",
+        "https://kogpt.ai/"
+    ],
+    "Korean Bar Exam (변호사)": [85, 82, 80, 75, 79, 77],
+    "Senior Civil Service Examination (국가직 5급)": [88, 84, 83, 76, 81, 78]
 }
+# DataFrame 생성
+df = pd.DataFrame(data)
+# Average 점수 계산
+exam_columns = ["Korean Bar Exam (변호사)", "Senior Civil Service Examination (국가직 5급)"]
+df["Average"] = df[exam_columns].mean(axis=1).round(1)
+# 열 순서 재배치 (Company/Model, URL, Average, 그 다음 각 시험)
+cols = ["Company/Model", "URL", "Average"] + exam_columns
+df = df[cols]
+# HTML로 렌더링하기 위한 함수 (URL을 클릭 가능한 링크로 변환)
+def format_df_as_html(df):
+    # DataFrame 복사본 생성
+    display_df = df.copy()
+    # URL 열을 클릭 가능한 링크로 변환
+    for i, url in enumerate(display_df["URL"]):
+        model_name = display_df.iloc[i]["Company/Model"]
+        display_df.at[i, "Company/Model"] = f'<a href="{url}" target="_blank">{model_name}</a>'
+    # URL 열 제거 (이미 Company/Model에 링크로 통합)
+    display_df = display_df.drop("URL", axis=1)
+    # 표 스타일 추가
+    styled_html = """
+    <style>
+        table {
+            width: 100%;
+            border-collapse: collapse;
+            font-family: Arial, sans-serif;
+        }
+        th {
+            background-color: #4CAF50;
+            color: white;
+            font-weight: bold;
+            text-align: left;
+            padding: 12px;
+        }
+        td {
+            padding: 10px;
+            border-bottom: 1px solid #ddd;
+        }
+        tr:nth-child(even) {
+            background-color: #f2f2f2;
+        }
+        tr:hover {
+            background-color: #ddd;
+        }
+        .header {
+            text-align: center;
+            font-size: 24px;
+            font-weight: bold;
+            margin-bottom: 20px;
+            color: #333;
+        }
+    </style>
+    <div class="header">Korean Exam Leaderboard</div>
     """
+    # DataFrame을 HTML로 변환하고 스타일 적용
+    html_table = display_df.to_html(index=False, escape=False)
+    return styled_html + html_table
+# Gradio 인터페이스
+def show_leaderboard():
+    html_content = format_df_as_html(df)
+    return html_content
+# 인터페이스 생성
+demo = gr.Interface(
+    fn=show_leaderboard,
+    inputs=None,
+    outputs=gr.HTML(),
+    title="Korean Exam Leaderboard",
+    description="성능 비교: 한국 법학 및 행정고시 시험에서의 AI 모델 점수"
+)
+# 앱 실행
+if __name__ == "__main__":
+    demo.launch()