File size: 2,031 Bytes
39acd70
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
import pandas as pd
import sys
from pprint import pprint
import numpy as np

# Chemin vers le fichier parquet
parquet_file = "data/lighteval_results/details/Qwen/Qwen2.5-72B-Instruct/2025-04-01T13-30-41.628107/details_custom|yourbench|0_2025-04-01T13-30-41.628107.parquet"

# Charger le fichier parquet
df = pd.read_parquet(parquet_file)

# Afficher des informations de base
print(f"Nombre total d'exemples: {len(df)}")
print(f"Colonnes disponibles: {', '.join(df.columns)}")
print(f"Métriques d'accuracy: {df['metrics'].tolist()}")
print("\n" + "="*80 + "\n")

# Examiner quelques exemples plus en détail
for i in range(min(3, len(df))):
    print(f"EXEMPLE {i+1}:")
    print(f"Question: {df.iloc[i].specifics.get('question', 'N/A')}")
    print(f"Réponse du modèle: {df.iloc[i].predictions[0]}")
    print(f"Réponse de référence (choice): {df.iloc[i].choices[0]}")
    print(f"Gold index: {df.iloc[i].gold_index}")
    
    # Afficher le document
    print("\nDocument:")
    doc = df.iloc[i].specifics.get('document', 'N/A')
    print(doc[:500] + "..." if len(doc) > 500 else doc)
    
    # Afficher les chunks
    print("\nChunks:")
    chunks = df.iloc[i].specifics.get('chunks', None)
    if chunks is not None and len(chunks) > 0:
        for j in range(len(chunks)):
            chunk_text = chunks[j]
            if isinstance(chunk_text, str):
                print(f"  Chunk {j+1}: {chunk_text[:300]}..." if len(chunk_text) > 300 else f"  Chunk {j+1}: {chunk_text}")
            else:
                print(f"  Chunk {j+1}: {type(chunk_text)}")
    else:
        print("  Aucun chunk disponible")
    
    # Afficher d'autres métadonnées
    print("\nMétadonnées:")
    print(f"  Catégorie de question: {df.iloc[i].specifics.get('question_category', 'N/A')}")
    print(f"  Difficulté estimée: {df.iloc[i].specifics.get('estimated_difficulty', 'N/A')}")
    print(f"  Modèle générateur de question: {df.iloc[i].specifics.get('question_generating_model', 'N/A')}")
    
    print("\n" + "="*80 + "\n")