Spaces:
Running
on
CPU Upgrade
Running
on
CPU Upgrade
Update src/display/about.py
Browse files- src/display/about.py +3 -3
src/display/about.py
CHANGED
@@ -44,10 +44,10 @@ LLM_BENCHMARKS_TEXT = f"""
|
|
44 |
## Reproductibilité
|
45 |
Nous utilisons une version adaptée de LM Evaluation Harness [github](https://github.com/EleutherAI/lm-evaluation-harness) pour garantir que les résultats de notre classement sont à la fois fiables et reproductibles.
|
46 |
## Comment reproduire les résultats :
|
47 |
-
1) Configurer le dépôt : Clonez le "
|
48 |
2) Effectuer les évaluations : Pour obtenir les mêmes résultats que ceux du classement (certains tests peuvent montrer de petites variations), utilisez la commande suivante, en l'ajustant à votre modèle. Par exemple, avec le modèle Trendyol :
|
49 |
```python
|
50 |
-
lm_eval --model vllm --model_args
|
51 |
```
|
52 |
## Remarques :
|
53 |
- J'utilise actuellement "vllm", qui pourrait différer légèrement par rapport à LM Evaluation Harness.
|
@@ -56,7 +56,7 @@ Les tâches et les paramètres de few-shot sont :
|
|
56 |
- BBH : 3-shot, *Big-Bench-Hard* (`acc_norm`)
|
57 |
- IFEval : 0-shot, *Instruction Following Evaluation* (inst_level_strict_acc,none et prompt_level_strict_acc,none)
|
58 |
- GPQA : 0-shot, *Generalized Purpose Question Answering* (`acc_norm`)
|
59 |
-
- MMLU : 5-shot,
|
60 |
- MuSR : 5-shot, *MuSR* (`acc_norm`)
|
61 |
- GSM8k : 5-shot, *gsm8k* (`acc`)
|
62 |
"""
|
|
|
44 |
## Reproductibilité
|
45 |
Nous utilisons une version adaptée de LM Evaluation Harness [github](https://github.com/EleutherAI/lm-evaluation-harness) pour garantir que les résultats de notre classement sont à la fois fiables et reproductibles.
|
46 |
## Comment reproduire les résultats :
|
47 |
+
1) Configurer le dépôt : Clonez le "lm-evaluation-harness-multilingual" depuis [lm-evaluation-harness-multilingual](https://github.com/mohamedalhajjar/lm-evaluation-harness-multilingual) et suivez les instructions d'installation.
|
48 |
2) Effectuer les évaluations : Pour obtenir les mêmes résultats que ceux du classement (certains tests peuvent montrer de petites variations), utilisez la commande suivante, en l'ajustant à votre modèle. Par exemple, avec le modèle Trendyol :
|
49 |
```python
|
50 |
+
lm_eval --model vllm --model_args="pretrained=OpenLLM-France/Claire-7B-FR-Instruct-0.1,tensor_parallel_size=1,dtype=auto,gpu_memory_utilization=0.8,data_parallel_size=4" --tasks=leaderboard-fr --batch_size=auto
|
51 |
```
|
52 |
## Remarques :
|
53 |
- J'utilise actuellement "vllm", qui pourrait différer légèrement par rapport à LM Evaluation Harness.
|
|
|
56 |
- BBH : 3-shot, *Big-Bench-Hard* (`acc_norm`)
|
57 |
- IFEval : 0-shot, *Instruction Following Evaluation* (inst_level_strict_acc,none et prompt_level_strict_acc,none)
|
58 |
- GPQA : 0-shot, *Generalized Purpose Question Answering* (`acc_norm`)
|
59 |
+
- MMLU : 5-shot, (average of all the results `acc`)
|
60 |
- MuSR : 5-shot, *MuSR* (`acc_norm`)
|
61 |
- GSM8k : 5-shot, *gsm8k* (`acc`)
|
62 |
"""
|