Spaces:
Running
Running
Update dist/index.html
Browse files- dist/index.html +11 -10
dist/index.html
CHANGED
@@ -1270,7 +1270,8 @@
|
|
1270 |
<h4 id="passage-l-chelle">Taille des modèles</h4>
|
1271 |
<p class="width_125"> Des T5/FLAN-T5 ont été entraînés jusqu'à 11 milliards de paramètres, montrant ainsi que cette architecture peut passer à l'échelle.<br>
|
1272 |
Nous aimerions ainsi proposer des modèles de taille plus importante avec un FAT5-base et un FAT5-large de respectivement 305M et 973M de paramètres que nous souhaiterions ensuite distiller. L'objectif est de proposer des modèles consommant le moins possible en routine/inférence.<br>
|
1273 |
-
Nous nous attendons également à ce que les modèles distillés donnent de meilleures performances que des modèles de taille équivalente entraînés de zéro
|
|
|
1274 |
<br><br></p>
|
1275 |
|
1276 |
<h4 id="modeles-specialises">Les données d'entraînement</h4>
|
@@ -1292,7 +1293,7 @@
|
|
1292 |
<p class="width_125">
|
1293 |
Nous avons introduit le modèle FAT5 (Flash Attention T5) en détaillant notre démarche d’optimisation de différents éléments des processus de pré-entraînement et de finetuning.
|
1294 |
Celui-ci se base sur des noyaux permettant d'utiliser la Flash Attention avec un T5 et de donner une mémoire linéaire au modèle.
|
1295 |
-
Nous avons notamment appliqué nos travaux au français et fait en sorte qu’il soit aussi utilisable dans n'importe quelle autre langue.
|
1296 |
Nous espérons que notre méthode, permettant de pré-entraîner de zéro un modèle de 147M de paramètres pour 1 600€, pourra être utile aux personnes disposant de ressources de calculs limitées.
|
1297 |
Elle ouvre également une voie vers un retour à un usage de modèles encodeur-décodeur plutôt qu’uniquement décodeur.<br>
|
1298 |
<p class="width_125"><br><br></p>
|
@@ -1317,14 +1318,14 @@
|
|
1317 |
</style>
|
1318 |
|
1319 |
<h3 id="citation">Citation</h3>
|
1320 |
-
<pre class="citation long">@misc{
|
1321 |
-
|
1322 |
-
|
1323 |
-
|
1324 |
-
|
1325 |
-
|
1326 |
-
|
1327 |
-
|
1328 |
}</pre>
|
1329 |
|
1330 |
<d-appendix style="color: #9CA3AF;" >
|
|
|
1270 |
<h4 id="passage-l-chelle">Taille des modèles</h4>
|
1271 |
<p class="width_125"> Des T5/FLAN-T5 ont été entraînés jusqu'à 11 milliards de paramètres, montrant ainsi que cette architecture peut passer à l'échelle.<br>
|
1272 |
Nous aimerions ainsi proposer des modèles de taille plus importante avec un FAT5-base et un FAT5-large de respectivement 305M et 973M de paramètres que nous souhaiterions ensuite distiller. L'objectif est de proposer des modèles consommant le moins possible en routine/inférence.<br>
|
1273 |
+
Nous nous attendons également à ce que les modèles distillés donnent de meilleures performances que des modèles de taille équivalente entraînés de zéro.<br>
|
1274 |
+
Cela doit nous permettre également de proposer des modèles qui seront utilisés en pratique. En effet, en l'état actuel pour le français, si l'utilisateur est davantage motivé par les performances plutôt que par la taille mémoire du modèle, il a davantage intérêt à utiliser un CamemBERTa 2.0 pour les tâches de classification. Le présent FAT5 doit ainsi davantage être vue comme une preuve de concept avant un passage à l'échelle qui doit le rendre compétitif.
|
1275 |
<br><br></p>
|
1276 |
|
1277 |
<h4 id="modeles-specialises">Les données d'entraînement</h4>
|
|
|
1293 |
<p class="width_125">
|
1294 |
Nous avons introduit le modèle FAT5 (Flash Attention T5) en détaillant notre démarche d’optimisation de différents éléments des processus de pré-entraînement et de finetuning.
|
1295 |
Celui-ci se base sur des noyaux permettant d'utiliser la Flash Attention avec un T5 et de donner une mémoire linéaire au modèle.
|
1296 |
+
Nous avons notamment appliqué nos travaux au français en guise de preuve de concept et fait en sorte qu’il soit aussi utilisable dans n'importe quelle autre langue.
|
1297 |
Nous espérons que notre méthode, permettant de pré-entraîner de zéro un modèle de 147M de paramètres pour 1 600€, pourra être utile aux personnes disposant de ressources de calculs limitées.
|
1298 |
Elle ouvre également une voie vers un retour à un usage de modèles encodeur-décodeur plutôt qu’uniquement décodeur.<br>
|
1299 |
<p class="width_125"><br><br></p>
|
|
|
1318 |
</style>
|
1319 |
|
1320 |
<h3 id="citation">Citation</h3>
|
1321 |
+
<pre class="citation long">@misc {FAT5,
|
1322 |
+
title = { FAT5: Flash Attention T5 },
|
1323 |
+
author = { Boris ALBAR and Loïck BOURDOIS },
|
1324 |
+
organization = { Centre Aquitain des Technologies de l'Information et Electroniques },
|
1325 |
+
year = 2025,
|
1326 |
+
url = { https://huggingface.co/spaces/CATIE-AQ/FAT5-report },
|
1327 |
+
doi = { 10.57967/hf/4160 },
|
1328 |
+
publisher = { Hugging Face }
|
1329 |
}</pre>
|
1330 |
|
1331 |
<d-appendix style="color: #9CA3AF;" >
|