import pandas as pd import sys from pprint import pprint import numpy as np # Chemin vers le fichier parquet parquet_file = "data/lighteval_results/details/Qwen/Qwen2.5-72B-Instruct/2025-04-01T13-30-41.628107/details_custom|yourbench|0_2025-04-01T13-30-41.628107.parquet" # Charger le fichier parquet df = pd.read_parquet(parquet_file) # Afficher des informations de base print(f"Nombre total d'exemples: {len(df)}") print(f"Colonnes disponibles: {', '.join(df.columns)}") print(f"Métriques d'accuracy: {df['metrics'].tolist()}") print("\n" + "="*80 + "\n") # Examiner quelques exemples plus en détail for i in range(min(3, len(df))): print(f"EXEMPLE {i+1}:") print(f"Question: {df.iloc[i].specifics.get('question', 'N/A')}") print(f"Réponse du modèle: {df.iloc[i].predictions[0]}") print(f"Réponse de référence (choice): {df.iloc[i].choices[0]}") print(f"Gold index: {df.iloc[i].gold_index}") # Afficher le document print("\nDocument:") doc = df.iloc[i].specifics.get('document', 'N/A') print(doc[:500] + "..." if len(doc) > 500 else doc) # Afficher les chunks print("\nChunks:") chunks = df.iloc[i].specifics.get('chunks', None) if chunks is not None and len(chunks) > 0: for j in range(len(chunks)): chunk_text = chunks[j] if isinstance(chunk_text, str): print(f" Chunk {j+1}: {chunk_text[:300]}..." if len(chunk_text) > 300 else f" Chunk {j+1}: {chunk_text}") else: print(f" Chunk {j+1}: {type(chunk_text)}") else: print(" Aucun chunk disponible") # Afficher d'autres métadonnées print("\nMétadonnées:") print(f" Catégorie de question: {df.iloc[i].specifics.get('question_category', 'N/A')}") print(f" Difficulté estimée: {df.iloc[i].specifics.get('estimated_difficulty', 'N/A')}") print(f" Modèle générateur de question: {df.iloc[i].specifics.get('question_generating_model', 'N/A')}") print("\n" + "="*80 + "\n")