Spaces:

yu3733
/

HLE

Running

App Files Files Community

yu3733 commited on Jul 12

Commit

ee2d50c

1 Parent(s): 6d56e7f

24

Browse files

Files changed (1) hide show

app.py +79 -40

app.py CHANGED Viewed

@@ -26,16 +26,24 @@ def load_and_process_data():
         # トークンがあればログイン
         if HF_TOKEN:
             login(token=HF_TOKEN)
         dataset = load_dataset("cais/hle", split="test")
         # 画像データを扱うため、Pandasに変換するのはメタデータのみ
         df = dataset.remove_columns(['image_preview', 'rationale_image']).to_pandas()
         category_counts = df['category'].value_counts()
-        print("データセットのロードと前処理が完了しました。")
     except Exception as e:
         print(f"データセットのロードエラー: {e}")
         # エラーが発生した場合、アプリがクラッシュしないように空のデータフレームを設定
         df = pd.DataFrame(columns=['id', 'question', 'category'])
-        category_counts = pd.Series()
 # --- 翻訳関数 ---
 def translate_text(text, dest_lang='ja'):
@@ -53,6 +61,9 @@ def translate_text(text, dest_lang='ja'):
 # --- Gradioイベントハンドラ ---
 def on_category_change(selected_category):
     """カテゴリが変更されたときに、問題のドロップダウンを更新する"""
     if selected_category == "全カテゴリ":
         filtered_indices = df.index
     else:
@@ -71,40 +82,48 @@ def on_category_change(selected_category):
 def on_question_change(selected_index):
     """問題が選択されたときに、すべての詳細表示を更新する"""
-    if selected_index is None or pd.isna(selected_index):
-        # 空の出力をまとめて返す
-        empty_outputs = [gr.Markdown(visible=False)] * 6 + [gr.Image(visible=False)] * 2
-        return tuple(empty_outputs)
-    # 元のHugging Face Datasetから完全なエントリを取得
-    entry = dataset[int(selected_index)]
-    # 各要素の翻訳
-    q_trans = translate_text(entry['question'])
-    a_trans = translate_text(entry['answer'])
-    r_trans = translate_text(entry.get('rationale', ''))
-    # 出力コンポーネントの値を生成
-    outputs = {
-        "question_md": gr.Markdown(f"### 質問\n---\n**原文:**\n{entry['question']}\n\n**日本語訳:**\n{q_trans}", visible=True),
-        "question_img": gr.Image(entry.get('image_preview'), label="質問画像", visible=bool(entry.get('image_preview'))),
-        "answer_md": gr.Markdown(f"### 回答\n---\n**原文:**\n{entry['answer']}\n\n**日本語訳:**\n{a_trans}", visible=True),
-        "rationale_md": gr.Markdown(f"### 解説\n---\n**原文:**\n{entry.get('rationale', 'N/A')}\n\n**日本語訳:**\n{r_trans}", visible=bool(entry.get('rationale'))),
-        "rationale_img": gr.Image(entry.get('rationale_image'), label="解説画像", visible=bool(entry.get('rationale_image'))),
-        "metadata_md": gr.Markdown(f"**ID:** `{entry['id']}`<br>**分野:** `{entry['raw_subject']}`<br>**回答タイプ:** `{entry['answer_type']}`", visible=True),
-        "json_output": gr.JSON({k: str(v) for k, v in entry.items()}, label="元のデータ", visible=True)
-    }
-    # 定義された順序で値を返す
-    return (
-        outputs["question_md"],
-        outputs["question_img"],
-        outputs["answer_md"],
-        outputs["rationale_md"],
-        outputs["rationale_img"],
-        outputs["metadata_md"],
-        outputs["json_output"]
-    )
 # --- Gradio UI構築 ---
 def create_demo():
@@ -113,29 +132,48 @@ def create_demo():
     with gr.Blocks(theme=gr.themes.Soft(), title="HLE Dataset Viewer") as demo:
         gr.Markdown("# Humanity's Last Exam (HLE) Dataset Viewer")
         gr.Markdown("Hugging Face `cais/hle`データセットを探索し、日本語訳を確認できます。")
         with gr.Row():
             with gr.Column(scale=1, min_width=350):
                 gr.Markdown("## 操作パネル")
                 category_dd = gr.Dropdown(
-                    choices=["全カテゴリ"] + sorted(category_counts.index.tolist()),
                     value="全カテゴリ",
                     label="1. カテゴリを選択"
                 )
                 question_dd = gr.Dropdown(label="2. 問題を選択", interactive=False)
                 gr.Markdown("### カテゴリ別問題数")
-                gr.Dataframe(value=pd.DataFrame(category_counts).reset_index(), headers=['カテゴリ', '問題数'], interactive=False)
             with gr.Column(scale=3):
                 # 出力エリアのプレースホルダー
-                metadata_md = gr.Markdown(visible=False)
                 question_md = gr.Markdown(visible=False)
                 question_img = gr.Image(label="質問画像", visible=False)
                 answer_md = gr.Markdown(visible=False)
                 rationale_md = gr.Markdown(visible=False)
                 rationale_img = gr.Image(label="解説画像", visible=False)
                 json_output = gr.JSON(label="元のデータ", visible=False)
         # イベントリスナーを設定
@@ -145,7 +183,8 @@ def create_demo():
         ])
         # 初期表示のために最初のカテゴリ変更イベントをトリガー
-        demo.load(fn=on_category_change, inputs=category_dd, outputs=question_dd)
     return demo

         # トークンがあればログイン
         if HF_TOKEN:
             login(token=HF_TOKEN)
+            print("Hugging Face にログインしました。")
+        else:
+            print("警告: HF_TOKEN が設定されていません。ゲート付きデータセットにアクセスできません。")
+        # データセットをロード
+        print("データセットをロード中...")
         dataset = load_dataset("cais/hle", split="test")
         # 画像データを扱うため、Pandasに変換するのはメタデータのみ
         df = dataset.remove_columns(['image_preview', 'rationale_image']).to_pandas()
         category_counts = df['category'].value_counts()
+        print(f"データセットのロードと前処理が完了しました。合計 {len(df)} 件のデータを読み込みました。")
     except Exception as e:
         print(f"データセットのロードエラー: {e}")
+        print("データセットへのアクセスには認証が必要です。HF_TOKENを設定してください。")
         # エラーが発生した場合、アプリがクラッシュしないように空のデータフレームを設定
         df = pd.DataFrame(columns=['id', 'question', 'category'])
+        category_counts = pd.Series(dtype='int64')
 # --- 翻訳関数 ---
 def translate_text(text, dest_lang='ja'):
 # --- Gradioイベントハンドラ ---
 def on_category_change(selected_category):
     """カテゴリが変更されたときに、問題のドロップダウンを更新する"""
+    if df is None or len(df) == 0:
+        return gr.Dropdown(choices=[], label="データセットが利用できません", interactive=False, value=None)
     if selected_category == "全カテゴリ":
         filtered_indices = df.index
     else:
 def on_question_change(selected_index):
     """問題が選択されたときに、すべての詳細表示を更新する"""
+    if selected_index is None or pd.isna(selected_index) or dataset is None:
+        # 空の出力をまとめて返す (7つの要素: question_md, question_img, answer_md, rationale_md, rationale_img, metadata_md, json_output)
+        return (
+            gr.Markdown(visible=False),  # question_md
+            gr.Image(visible=False),     # question_img
+            gr.Markdown(visible=False),  # answer_md
+            gr.Markdown(visible=False),  # rationale_md
+            gr.Image(visible=False),     # rationale_img
+            gr.Markdown(visible=False),  # metadata_md
+            gr.JSON(visible=False)       # json_output
+        )
+    try:
+        # 元のHugging Face Datasetから完全なエントリを取得
+        entry = dataset[int(selected_index)]
+        # 各要素の翻訳
+        q_trans = translate_text(entry['question'])
+        a_trans = translate_text(entry['answer'])
+        r_trans = translate_text(entry.get('rationale', ''))
+        # 正確に7つの値を返す
+        return (
+            gr.Markdown(f"### 質問\n---\n**原文:**\n{entry['question']}\n\n**日本語訳:**\n{q_trans}", visible=True),  # question_md
+            gr.Image(entry.get('image_preview'), label="質問画像", visible=bool(entry.get('image_preview'))),  # question_img
+            gr.Markdown(f"### 回答\n---\n**原文:**\n{entry['answer']}\n\n**日本語訳:**\n{a_trans}", visible=True),  # answer_md
+            gr.Markdown(f"### 解説\n---\n**原文:**\n{entry.get('rationale', 'N/A')}\n\n**日本語訳:**\n{r_trans}", visible=bool(entry.get('rationale'))),  # rationale_md
+            gr.Image(entry.get('rationale_image'), label="解説画像", visible=bool(entry.get('rationale_image'))),  # rationale_img
+            gr.Markdown(f"**ID:** `{entry['id']}`<br>**分野:** `{entry['raw_subject']}`<br>**回答タイプ:** `{entry['answer_type']}`", visible=True),  # metadata_md
+            gr.JSON({k: str(v) for k, v in entry.items()}, label="元のデータ", visible=True)  # json_output
+        )
+    except Exception as e:
+        error_msg = f"データ取得エラー: {str(e)}"
+        return (
+            gr.Markdown(f"### エラー\n{error_msg}", visible=True),
+            gr.Image(visible=False),
+            gr.Markdown(visible=False),
+            gr.Markdown(visible=False),
+            gr.Image(visible=False),
+            gr.Markdown(visible=False),
+            gr.JSON(visible=False)
+        )
 # --- Gradio UI構築 ---
 def create_demo():
     with gr.Blocks(theme=gr.themes.Soft(), title="HLE Dataset Viewer") as demo:
         gr.Markdown("# Humanity's Last Exam (HLE) Dataset Viewer")
+        if df is None or len(df) == 0:
+            gr.Markdown("⚠️ **データセットの読み込みに失敗しました**")
+            gr.Markdown("このデータセットはゲート付きで、アクセスには認証が必要です。")
+            gr.Markdown("**解決方法:**")
+            gr.Markdown("1. [Hugging Face](https://huggingface.co/cais/hle) でデータセットへのアクセス申請を行ってください")
+            gr.Markdown("2. 承認後、HF_TOKEN環境変数にあなたのHugging Faceトークンを設定してください")
+            return demo
         gr.Markdown("Hugging Face `cais/hle`データセットを探索し、日本語訳を確認できます。")
         with gr.Row():
             with gr.Column(scale=1, min_width=350):
                 gr.Markdown("## 操作パネル")
+                # カテゴリの選択肢を安全に作成
+                if len(category_counts) > 0:
+                    category_choices = ["全カテゴリ"] + sorted(category_counts.index.tolist())
+                else:
+                    category_choices = ["全カテゴリ"]
                 category_dd = gr.Dropdown(
+                    choices=category_choices,
                     value="全カテゴリ",
                     label="1. カテゴリを選択"
                 )
                 question_dd = gr.Dropdown(label="2. 問題を選択", interactive=False)
                 gr.Markdown("### カテゴリ別問題数")
+                if len(category_counts) > 0:
+                    gr.Dataframe(value=pd.DataFrame(category_counts).reset_index(), headers=['カテゴリ', '問題数'], interactive=False)
+                else:
+                    gr.Markdown("データがありません")
             with gr.Column(scale=3):
                 # 出力エリアのプレースホルダー
                 question_md = gr.Markdown(visible=False)
                 question_img = gr.Image(label="質問画像", visible=False)
                 answer_md = gr.Markdown(visible=False)
                 rationale_md = gr.Markdown(visible=False)
                 rationale_img = gr.Image(label="解説画像", visible=False)
+                metadata_md = gr.Markdown(visible=False)
                 json_output = gr.JSON(label="元のデータ", visible=False)
         # イベントリスナーを設定
         ])
         # 初期表示のために最初のカテゴリ変更イベントをトリガー
+        if len(df) > 0:
+            demo.load(fn=on_category_change, inputs=category_dd, outputs=question_dd)
     return demo