Spaces:

yourbench
/

demo

Running on CPU Upgrade

App Files Files Community

demo / backend /tasks /evaluationTask.py

tfrere

first commit

970eef1 27 days ago

raw

history blame

18.2 kB

	"""
	Task to evaluate models on a YourbBench dataset using LightEval
	"""
	import os
	import sys
	import json
	import time
	import tempfile
	import asyncio
	import threading
	from pathlib import Path
	from typing import Optional, List, Dict, Any, Tuple

	from loguru import logger
	from huggingface_hub import HfApi, CommitOperationAdd

	from tasks.yourbench_lighteval_task import create_yourbench_task


	class EvaluationTask:
	"""
	Task to evaluate models using LightEval on a YourbBench dataset
	"""

	def __init__(self, session_uid: str, dataset_name: str):
	"""
	Initialize the evaluation task

	Args:
	session_uid: Session ID for this task
	dataset_name: Name of the dataset to evaluate
	"""
	self.session_uid = session_uid
	self.dataset_name = dataset_name
	self.logs: List[str] = []
	self.is_completed = False
	self.organization = os.getenv("HF_ORGANIZATION", "yourbench")
	self.results: Dict[str, Any] = {}
	self.output_dir = f"uploaded_files/{session_uid}/lighteval_results"

	# Models to evaluate - can be modified to allow customization
	self.models = [
	("Qwen/Qwen2.5-72B-Instruct", "novita"),
	("Qwen/QwQ-32B", "novita"),
	]

	self._add_log("[INFO] Initializing evaluation task")
	self._add_log(f"[INFO] Dataset to evaluate: {self.organization}/{dataset_name}")
	self._add_log(f"[INFO] Output directory: {self.output_dir}")

	def _add_log(self, message: str) -> None:
	"""
	Add a log message to the logs list

	Args:
	message: Log message to add
	"""
	if message not in self.logs: # Avoid duplicates
	self.logs.append(message)
	# Force copy of the list to avoid reference problems
	self.logs = self.logs.copy()
	# Record in system logs
	logger.info(f"[{self.session_uid}] {message}")

	def get_logs(self) -> List[str]:
	"""
	Get all logs for this task

	Returns:
	List of log messages
	"""
	return self.logs.copy() # Retourner une copie pour éviter les problèmes de référence

	def is_task_completed(self) -> bool:
	"""
	Check if the task is completed

	Returns:
	True if completed, False otherwise
	"""
	return self.is_completed

	async def _evaluate_model(self, model_info: Tuple[str, str]) -> Dict[str, Any]:
	"""
	Evaluate a specific model

	Args:
	model_info: Tuple of (model_name, provider)

	Returns:
	Dictionary with evaluation results
	"""
	model_name, provider = model_info
	self._add_log(f"[INFO] Starting evaluation for {model_name} with {provider}")

	# Create output directory
	os.makedirs(self.output_dir, exist_ok=True)

	# Define full dataset path
	dataset_path = f"{self.organization}/{self.dataset_name}"

	# Create temporary file
	temp_file_path = tempfile.mktemp(suffix=".py")
	self._add_log(f"[INFO] Creating temporary file for {model_name}: {temp_file_path}")

	with open(temp_file_path, 'w') as temp_file:
	temp_file.write(f"""
	import os
	import sys
	sys.path.append("{os.getcwd()}")

	from tasks.yourbench_lighteval_task import create_yourbench_task

	# Create yourbench task
	yourbench = create_yourbench_task("{dataset_path}", "lighteval")

	# Define TASKS_TABLE needed by lighteval
	TASKS_TABLE = [yourbench]
	""")

	# Build lighteval command args
	cmd_args = [
	"lighteval",
	"endpoint",
	"inference-providers",
	f"model={model_name},provider={provider}",
	"custom\|yourbench\|0\|0",
	"--custom-tasks",
	temp_file_path,
	"--max-samples", "5",
	"--output-dir", self.output_dir,
	"--save-details",
	"--no-push-to-hub"
	]

	self._add_log(f"[INFO] Running command for {model_name}: {' '.join(cmd_args)}")

	results = {
	"model_name": model_name,
	"provider": provider,
	"success": False,
	"error": None,
	"results": None,
	"return_code": None
	}

	try:
	# Prepare environment with needed tokens
	env = os.environ.copy()
	hf_token = os.getenv("HF_TOKEN")
	if hf_token:
	env["HF_TOKEN"] = hf_token
	env["HUGGING_FACE_HUB_TOKEN"] = hf_token
	env["HF_ORGANIZATION"] = self.organization

	# Run the process asynchronously
	process = await asyncio.create_subprocess_exec(
	*cmd_args,
	stdout=asyncio.subprocess.PIPE,
	stderr=asyncio.subprocess.PIPE,
	env=env
	)

	# Wait for the process to complete
	stdout, stderr = await process.communicate()

	# Store return code
	exit_code = process.returncode
	results["return_code"] = exit_code

	# Log output
	if stdout:
	stdout_lines = stdout.decode().strip().split('\n')
	for line in stdout_lines[:5]: # Log only first 5 lines
	self._add_log(f"[INFO] {model_name} - {line}")

	# Log errors if any
	if stderr and exit_code != 0:
	stderr_lines = stderr.decode().strip().split('\n')
	for line in stderr_lines[:5]: # Log only first 5 lines
	self._add_log(f"[ERROR] {model_name} - {line}")

	# Find any JSON result files - LightEval organizes by model name in different ways
	result_files = []
	results_dir = Path(self.output_dir) / "results"
	if results_dir.exists():
	# Parcourir récursivement tous les répertoires pour trouver des fichiers JSON
	for json_file in results_dir.glob("*/.json"):
	# Check if the filename or path contains parts of the model name
	model_parts = [
	model_name, # Full name
	model_name.replace('/', '_'), # Name with / replaced by _
	model_name.split('/')[-1] # Just the model name without the organization
	]

	if any(part in str(json_file) for part in model_parts):
	result_files.append(json_file)

	# Traiter les fichiers de résultats trouvés
	if result_files:
	# Prendre le fichier le plus récent
	result_files.sort(key=lambda x: x.stat().st_mtime, reverse=True)
	latest_result = result_files[0]
	self._add_log(f"[INFO] {model_name} - Found result file: {latest_result}")

	try:
	with open(latest_result, 'r') as f:
	test_results = json.load(f)

	# Vérifier si les résultats contiennent les informations essentielles
	if (test_results and
	isinstance(test_results, dict) and
	"results" in test_results and
	"all" in test_results["results"]):

	# Enregistrer les résultats
	results["results"] = test_results
	results["success"] = True

	# Afficher la précision
	accuracy = test_results["results"]["all"]["accuracy"]
	accuracy_stderr = test_results["results"]["all"]["accuracy_stderr"]
	self._add_log(f"[SUCCESS] {model_name} - Accuracy: {accuracy:.4f} ± {accuracy_stderr:.4f}")
	else:
	results["error"] = "Incomplete or unexpected result format"
	self._add_log(f"[WARNING] {model_name} - Unexpected result format")

	except (json.JSONDecodeError, KeyError) as e:
	results["error"] = f"Error reading results: {str(e)}"
	self._add_log(f"[ERROR] {model_name} - {results['error']}")

	# Si aucun résultat trouvé
	if not results["success"]:
	if exit_code == 0:
	results["error"] = "Execution completed without error but no results found"
	self._add_log(f"[WARNING] {model_name} - {results['error']}")
	else:
	results["error"] = f"Execution error (code: {exit_code})"
	self._add_log(f"[ERROR] {model_name} - {results['error']}")

	except Exception as e:
	results["error"] = f"Exception: {str(e)}"
	self._add_log(f"[ERROR] Exception during evaluation of {model_name}: {str(e)}")
	finally:
	# Delete temporary file
	try:
	os.unlink(temp_file_path)
	except:
	pass

	return results

	async def _run_evaluations(self) -> List[Dict[str, Any]]:
	"""
	Run evaluations for all models

	Returns:
	List of evaluation results
	"""
	self._add_log(f"[INFO] Starting evaluations for {len(self.models)} models")

	# Create tasks for each model
	tasks = [self._evaluate_model(model) for model in self.models]

	# Run all tasks concurrently and gather results
	model_results = await asyncio.gather(*tasks, return_exceptions=True)

	# Process results
	results = []
	for i, result in enumerate(model_results):
	if isinstance(result, Exception):
	# Handle exception
	model_name, provider = self.models[i]
	self._add_log(f"[ERROR] Evaluation failed for {model_name}: {str(result)}")
	results.append({
	"model_name": model_name,
	"provider": provider,
	"success": False,
	"error": str(result),
	"results": None,
	"return_code": None
	})
	else:
	# Valid result
	results.append(result)

	return results

	def _format_comparison_results(self, results: List[Dict[str, Any]]) -> Dict[str, Any]:
	"""
	Format results for easy comparison between models

	Args:
	results: List of evaluation results

	Returns:
	Dictionary with formatted comparison results
	"""
	comparison = {
	"metadata": {
	"timestamp": time.strftime("%Y-%m-%d %H:%M:%S"),
	"dataset": f"{self.organization}/{self.dataset_name}",
	"total_models_tested": len(results),
	"successful_tests": len([r for r in results if r["success"]])
	},
	"models_comparison": []
	}

	# Liste des modèles réussis et des modèles échoués
	successful_models = [r for r in results if r["success"]]
	failed_models = [r for r in results if not r["success"]]

	# Trier les modèles réussis par précision (du plus précis au moins précis)
	if successful_models:
	sorted_successful = sorted(
	successful_models,
	key=lambda x: x["results"]["results"]["all"]["accuracy"],
	reverse=True # Du plus grand au plus petit
	)
	else:
	sorted_successful = []

	# Trier les modèles échoués par nom
	sorted_failed = sorted(failed_models, key=lambda x: x["model_name"])

	# Concaténer: d'abord les réussites, puis les échecs
	sorted_results = sorted_successful + sorted_failed

	# Créer l'entrée pour chaque modèle
	for result in sorted_results:
	model_result = {
	"model_name": result["model_name"],
	"provider": result["provider"],
	"success": result["success"]
	}

	if result["success"]:
	# Ajouter les métriques de précision et temps d'exécution
	model_result.update({
	"accuracy": result["results"]["results"]["all"]["accuracy"],
	"accuracy_stderr": result["results"]["results"]["all"]["accuracy_stderr"],
	"evaluation_time": float(result["results"]["config_general"]["total_evaluation_time_secondes"])
	})
	else:
	# Ajouter l'erreur
	model_result["error"] = result.get("error", "Unknown reason")

	comparison["models_comparison"].append(model_result)

	return comparison

	async def _upload_results_to_dataset(self, comparison_results: Dict[str, Any]) -> bool:
	"""
	Upload evaluation results to the HuggingFace dataset

	Args:
	comparison_results: The formatted comparison results

	Returns:
	bool: True if upload succeeded, False otherwise
	"""
	try:
	# Create a timestamp for the results file
	timestamp = time.strftime("%Y%m%d_%H%M%S")
	result_filename = f"lighteval_results.json"

	# Create temporary file for upload
	temp_file_path = tempfile.mktemp(suffix=".json")
	with open(temp_file_path, 'w') as f:
	json.dump(comparison_results, f, indent=2)

	# Initialize HF API
	hf_token = os.getenv("HF_TOKEN")
	if not hf_token:
	self._add_log("[ERROR] HF_TOKEN not found, cannot upload results to dataset")
	return False

	api = HfApi(token=hf_token)
	dataset_id = f"{self.organization}/{self.dataset_name}"

	# Prepare the file operation
	operation = CommitOperationAdd(
	path_in_repo=f"lighteval_results/{result_filename}",
	path_or_fileobj=temp_file_path
	)

	# Upload the file
	self._add_log(f"[INFO] Uploading results to dataset {dataset_id}")
	api.create_commit(
	repo_id=dataset_id,
	repo_type="dataset",
	operations=[operation],
	commit_message=f"Add evaluation results from {timestamp}"
	)

	# Cleanup temporary file
	os.unlink(temp_file_path)

	self._add_log(f"[SUCCESS] Results uploaded to dataset {dataset_id} at lighteval_results/{result_filename}")
	return True

	except Exception as e:
	self._add_log(f"[ERROR] Failed to upload results to dataset: {str(e)}")
	return False

	async def _process_evaluation_results(self, results: List[Dict[str, Any]]) -> None:
	"""
	Process evaluation results, create summaries and save files

	Args:
	results: List of evaluation results
	"""
	if results:
	try:
	# Save detailed results
	detailed_output_file = f"{self.output_dir}/detailed_results.json"
	os.makedirs(os.path.dirname(detailed_output_file), exist_ok=True)
	with open(detailed_output_file, 'w') as f:
	json.dump(results, f, indent=2)
	self._add_log(f"[INFO] Detailed results saved in {detailed_output_file}")

	# Generate and save comparison results
	comparison = self._format_comparison_results(results)
	comparison_file = f"{self.output_dir}/models_comparison.json"
	with open(comparison_file, 'w') as f:
	json.dump(comparison, f, indent=2)
	self._add_log(f"[INFO] Models comparison saved in {comparison_file}")

	# Upload results to the dataset
	await self._upload_results_to_dataset(comparison)

	# Store results for later access
	self.results = comparison
	self._add_log("[SUCCESS] Evaluation completed")
	except Exception as e:
	self._add_log(f"[ERROR] Error during evaluation execution: {str(e)}")
	finally:
	self.is_completed = True

	def _async_run(self) -> None:
	"""
	Run the evaluation asynchronously
	"""
	async def run_async():
	try:
	# Run evaluations
	results = await self._run_evaluations()

	# Process evaluation results
	await self._process_evaluation_results(results)
	except Exception as e:
	self._add_log(f"[ERROR] Error during evaluation execution: {str(e)}")
	finally:
	self.is_completed = True

	# Create and run the asyncio event loop
	loop = asyncio.new_event_loop()
	asyncio.set_event_loop(loop)
	loop.run_until_complete(run_async())
	loop.close()

	def run(self) -> None:
	"""
	Run the evaluation task in a separate thread
	"""
	self._add_log("[INFO] Starting evaluation")

	# Run in a separate thread to not block the main thread
	thread = threading.Thread(target=self._async_run)
	thread.daemon = True
	thread.start()