Spaces:

yourbench
/

demo

Running on CPU Upgrade

App Files Files Community

tfrere commited on Apr 2

Commit

1728789

1 Parent(s): 9afe01c

update light eval task

Browse files

Files changed (3) hide show

backend/lighteval_task/lighteval_task.py +28 -36
backend/tasks/evaluation_task.py +2 -1
frontend/src/components/BenchmarkEvaluation.jsx +1 -1

backend/lighteval_task/lighteval_task.py CHANGED Viewed

@@ -38,7 +38,7 @@ from lighteval.tasks.lighteval_task import LightevalTaskConfig
 from lighteval.tasks.requests import Doc
-logger = logging.getLogger(__name__)
 JUDGE_ANSWER_SYSTEM_PROMPT = """You will be provided with the summary of a document, a piece of text, a question generated from that text, and the correct or "gold" answer to the question. Additionally, you will receive a model answer. Your task is to determine wether the model answer is correct using the provided "gold" answer as a reference.
 # Steps
@@ -144,38 +144,38 @@ def get_judge_prompt(question: str, answer: str, gold: str, **kwargs):
 def process_judge_response_yourbench(response):
     # Ajouter des logs détaillés pour comprendre la structure des réponses
-    logger.info(f"Type de réponse: {type(response)}")
     # Si la réponse est un dictionnaire, extraire le contenu
     if isinstance(response, dict):
-        logger.info(f"Clés du dictionnaire: {response.keys()}")
         if "content" in response:
             response = response["content"]
-            logger.info(f"Contenu de la clé 'content': {response[:100]}...")
         elif "text" in response:
             response = response["text"]
-            logger.info(f"Contenu de la clé 'text': {response[:100]}...")
         elif "response" in response:
             response = response["response"]
-            logger.info(f"Contenu de la clé 'response': {response[:100]}...")
         else:
             # Si on ne trouve pas de champ texte, on prend la première valeur
             response = str(list(response.values())[0])
-            logger.info(f"Utilisation de la première valeur: {response[:100]}...")
     # Si la réponse est une liste, prendre le premier élément
     if isinstance(response, list):
-        logger.info(f"Réponse est une liste de longueur {len(response)}")
         if len(response) > 0:
             if isinstance(response[0], dict) and "content" in response[0]:
                 response = response[0]["content"]
-                logger.info(f"Utilisation du contenu du premier élément: {response[:100]}...")
             else:
                 response = str(response[0])
-                logger.info(f"Utilisation du premier élément (converti en string): {response[:100]}...")
     # Pour le débogage, logguer la réponse actuelle
-    logger.info(f"Réponse après traitement initial: {str(response)[:200]}...")
     # Approche simplifiée : si nous avons une réponse, nous allons l'analyser pour déterminer 0 ou 1
     try:
@@ -201,17 +201,17 @@ def process_judge_response_yourbench(response):
         # Vérifier s'il y a des patterns négatifs
         for pattern in negative_patterns:
             if re.search(pattern, response_str):
-                logger.info(f"Pattern négatif trouvé: {pattern} dans la réponse")
                 return 0
         # Si nous n'avons pas trouvé de pattern négatif, considérer la réponse comme correcte
-        logger.info("Aucun pattern négatif trouvé, réponse considérée comme correcte")
         return 1
     except Exception as e:
-        logger.error(f"Error processing judge response: {e}")
-        logger.error(f"Response type: {type(response)}")
-        logger.error(f"Response content (truncated): {str(response)[:500]}")
         return 0  # Par défaut, retourner 0 en cas d'erreur
@@ -227,9 +227,9 @@ class JudgeLLMYourBench(JudgeLLM):
     def compute(self, sample_ids: list[str], responses: list, formatted_docs: list[Doc]) -> list[dict[str, float]]:
         # Ajout de debugging pour voir la structure complète des données
-        logger.info(f"Nombre de sample_ids: {len(sample_ids)}")
-        logger.info(f"Nombre de responses: {len(responses)}")
-        logger.info(f"Nombre de formatted_docs: {len(formatted_docs)}")
         try:
             # If we are evaluating a multiturn task, we need to have specific field in the formatted doc
@@ -237,15 +237,7 @@ class JudgeLLMYourBench(JudgeLLM):
             golds = [formatted_doc.get_golds()[0] for formatted_doc in formatted_docs]
             predictions = [response[0].result[0] for response in responses]
             options = [None] * len(questions)
-            # Ajout de logs détaillés avant l'accès problématique
-            for i, doc in enumerate(formatted_docs):
-                logger.info(f"Document {i} - Clés: {doc.specific.keys()}")
-                if "chunks" in doc.specific:
-                    logger.info(f"Document {i} - Chunks: {doc.specific['chunks']} (type: {type(doc.specific['chunks'])}, longueur: {len(doc.specific['chunks'])})")
-                else:
-                    logger.info(f"Document {i} - Pas de chunks trouvés!")
             # Protection contre les listes vides
             chunks = []
             for doc in formatted_docs:
@@ -258,9 +250,9 @@ class JudgeLLMYourBench(JudgeLLM):
             documents = [formatted_doc.specific["document"] for formatted_doc in formatted_docs]
             # Ajout de logs pour déboguer
-            logger.info(f"Questions: {questions}")
-            logger.info(f"Predictions: {predictions}")
-            logger.info(f"Golds: {golds}")
             # Au lieu d'utiliser le juge, qui semble avoir des problèmes,
             # Utilisons une approche simplifiée basée sur la présence des éléments clés
@@ -281,12 +273,12 @@ class JudgeLLMYourBench(JudgeLLM):
                 # C'est moins strict que les 60% initiaux, mais plus strict que 0%
                 score = 1.0 if coverage >= 0.4 else 0.0
-                logger.info(f"Couverture des mots clés pour la question {i+1}: {coverage:.2f} ({matches}/{len(key_terms)})")
-                logger.info(f"Score attribué: {score}")
                 scores.append(score)
-            logger.info(f"Scores bruts: {scores}")
             metrics = []
             for i in range(len(sample_ids)):
@@ -299,8 +291,8 @@ class JudgeLLMYourBench(JudgeLLM):
             return metrics
         except Exception as e:
-            logger.error(f"Erreur dans la fonction compute: {str(e)}")
-            logger.exception("Détails de l'erreur:")
             # Retourner un résultat par défaut en cas d'erreur
             return [{"accuracy": 0.0} for _ in sample_ids]

 from lighteval.tasks.requests import Doc
+# logger = logging.getLogger(__name__)
 JUDGE_ANSWER_SYSTEM_PROMPT = """You will be provided with the summary of a document, a piece of text, a question generated from that text, and the correct or "gold" answer to the question. Additionally, you will receive a model answer. Your task is to determine wether the model answer is correct using the provided "gold" answer as a reference.
 # Steps
 def process_judge_response_yourbench(response):
     # Ajouter des logs détaillés pour comprendre la structure des réponses
+    # logger.info(f"Type de réponse: {type(response)}")
     # Si la réponse est un dictionnaire, extraire le contenu
     if isinstance(response, dict):
+        # logger.info(f"Clés du dictionnaire: {response.keys()}")
         if "content" in response:
             response = response["content"]
+            # logger.info(f"Contenu de la clé 'content': {response[:100]}...")
         elif "text" in response:
             response = response["text"]
+            # logger.info(f"Contenu de la clé 'text': {response[:100]}...")
         elif "response" in response:
             response = response["response"]
+            # logger.info(f"Contenu de la clé 'response': {response[:100]}...")
         else:
             # Si on ne trouve pas de champ texte, on prend la première valeur
             response = str(list(response.values())[0])
+            # logger.info(f"Utilisation de la première valeur: {response[:100]}...")
     # Si la réponse est une liste, prendre le premier élément
     if isinstance(response, list):
+        # logger.info(f"Réponse est une liste de longueur {len(response)}")
         if len(response) > 0:
             if isinstance(response[0], dict) and "content" in response[0]:
                 response = response[0]["content"]
+                # logger.info(f"Utilisation du contenu du premier élément: {response[:100]}...")
             else:
                 response = str(response[0])
+                # logger.info(f"Utilisation du premier élément (converti en string): {response[:100]}...")
     # Pour le débogage, logguer la réponse actuelle
+    # logger.info(f"Réponse après traitement initial: {str(response)[:200]}...")
     # Approche simplifiée : si nous avons une réponse, nous allons l'analyser pour déterminer 0 ou 1
     try:
         # Vérifier s'il y a des patterns négatifs
         for pattern in negative_patterns:
             if re.search(pattern, response_str):
+                # logger.info(f"Pattern négatif trouvé: {pattern} dans la réponse")
                 return 0
         # Si nous n'avons pas trouvé de pattern négatif, considérer la réponse comme correcte
+        # logger.info("Aucun pattern négatif trouvé, réponse considérée comme correcte")
         return 1
     except Exception as e:
+        # logger.error(f"Error processing judge response: {e}")
+        # logger.error(f"Response type: {type(response)}")
+        # logger.error(f"Response content (truncated): {str(response)[:500]}")
         return 0  # Par défaut, retourner 0 en cas d'erreur
     def compute(self, sample_ids: list[str], responses: list, formatted_docs: list[Doc]) -> list[dict[str, float]]:
         # Ajout de debugging pour voir la structure complète des données
+        # logger.info(f"Nombre de sample_ids: {len(sample_ids)}")
+        # logger.info(f"Nombre de responses: {len(responses)}")
+        # logger.info(f"Nombre de formatted_docs: {len(formatted_docs)}")
         try:
             # If we are evaluating a multiturn task, we need to have specific field in the formatted doc
             golds = [formatted_doc.get_golds()[0] for formatted_doc in formatted_docs]
             predictions = [response[0].result[0] for response in responses]
             options = [None] * len(questions)
             # Protection contre les listes vides
             chunks = []
             for doc in formatted_docs:
             documents = [formatted_doc.specific["document"] for formatted_doc in formatted_docs]
             # Ajout de logs pour déboguer
+            # logger.info(f"Questions: {questions}")
+            # logger.info(f"Predictions: {predictions}")
+            # logger.info(f"Golds: {golds}")
             # Au lieu d'utiliser le juge, qui semble avoir des problèmes,
             # Utilisons une approche simplifiée basée sur la présence des éléments clés
                 # C'est moins strict que les 60% initiaux, mais plus strict que 0%
                 score = 1.0 if coverage >= 0.4 else 0.0
+                # logger.info(f"Couverture des mots clés pour la question {i+1}: {coverage:.2f} ({matches}/{len(key_terms)})")
+                # logger.info(f"Score attribué: {score}")
                 scores.append(score)
+            # logger.info(f"Scores bruts: {scores}")
             metrics = []
             for i in range(len(sample_ids)):
             return metrics
         except Exception as e:
+            # logger.error(f"Erreur dans la fonction compute: {str(e)}")
+            # logger.exception("Détails de l'erreur:")
             # Retourner un résultat par défaut en cas d'erreur
             return [{"accuracy": 0.0} for _ in sample_ids]

backend/tasks/evaluation_task.py CHANGED Viewed

@@ -17,7 +17,7 @@ from huggingface_hub import HfApi
 import asyncio
 # Valeur par défaut du timeout
-DEFAULT_EVALUATION_TIMEOUT = 70.0  # 1 minute par défaut
 class EvaluationTask:
     """
@@ -319,6 +319,7 @@ TASKS_TABLE = [yourbench]
         models = [
             "Qwen/QwQ-32B",
             "Qwen/Qwen2.5-72B-Instruct",
             "meta-llama/Llama-3.3-70B-Instruct",
             "deepseek-ai/DeepSeek-R1-Distill-Llama-70B",
             "mistralai/Mistral-Small-24B-Instruct-2501",

 import asyncio
 # Valeur par défaut du timeout
+DEFAULT_EVALUATION_TIMEOUT = 120.0  # 1 minute par défaut
 class EvaluationTask:
     """
         models = [
             "Qwen/QwQ-32B",
             "Qwen/Qwen2.5-72B-Instruct",
+            "google/gemma-3-27b-it",
             "meta-llama/Llama-3.3-70B-Instruct",
             "deepseek-ai/DeepSeek-R1-Distill-Llama-70B",
             "mistralai/Mistral-Small-24B-Instruct-2501",

frontend/src/components/BenchmarkEvaluation.jsx CHANGED Viewed

@@ -4,7 +4,7 @@ import { useNavigate, useSearchParams } from "react-router-dom";
 import API_CONFIG from "../config/api";
 // Temps de simulation en millisecondes pour les documents précalculés
-const SIMULATION_DURATION = 70000; // 20 secondes
 // Intervalle de changement des messages pour les documents standards vs précalculés
 const MESSAGE_CHANGE_INTERVAL = {

 import API_CONFIG from "../config/api";
 // Temps de simulation en millisecondes pour les documents précalculés
+const SIMULATION_DURATION = 120000; // 20 secondes
 // Intervalle de changement des messages pour les documents standards vs précalculés
 const MESSAGE_CHANGE_INTERVAL = {