bourdoiscatie commited on
Commit
e4d38df
·
verified ·
1 Parent(s): afbdcaf

Update dist/index.html

Browse files
Files changed (1) hide show
  1. dist/index.html +11 -10
dist/index.html CHANGED
@@ -1270,7 +1270,8 @@
1270
  <h4 id="passage-l-chelle">Taille des modèles</h4>
1271
  <p class="width_125"> Des T5/FLAN-T5 ont été entraînés jusqu'à 11 milliards de paramètres, montrant ainsi que cette architecture peut passer à l'échelle.<br>
1272
  Nous aimerions ainsi proposer des modèles de taille plus importante avec un FAT5-base et un FAT5-large de respectivement 305M et 973M de paramètres que nous souhaiterions ensuite distiller. L'objectif est de proposer des modèles consommant le moins possible en routine/inférence.<br>
1273
- Nous nous attendons également à ce que les modèles distillés donnent de meilleures performances que des modèles de taille équivalente entraînés de zéro.
 
1274
  <br><br></p>
1275
 
1276
  <h4 id="modeles-specialises">Les données d'entraînement</h4>
@@ -1292,7 +1293,7 @@
1292
  <p class="width_125">
1293
  Nous avons introduit le modèle FAT5 (Flash Attention T5) en détaillant notre démarche d’optimisation de différents éléments des processus de pré-entraînement et de finetuning.
1294
  Celui-ci se base sur des noyaux permettant d'utiliser la Flash Attention avec un T5 et de donner une mémoire linéaire au modèle.
1295
- Nous avons notamment appliqué nos travaux au français et fait en sorte qu’il soit aussi utilisable dans n'importe quelle autre langue.
1296
  Nous espérons que notre méthode, permettant de pré-entraîner de zéro un modèle de 147M de paramètres pour 1 600€, pourra être utile aux personnes disposant de ressources de calculs limitées.
1297
  Elle ouvre également une voie vers un retour à un usage de modèles encodeur-décodeur plutôt qu’uniquement décodeur.<br>
1298
  <p class="width_125"><br><br></p>
@@ -1317,14 +1318,14 @@
1317
  </style>
1318
 
1319
  <h3 id="citation">Citation</h3>
1320
- <pre class="citation long">@misc{FAT5_blogpost,
1321
- title={ FAT5: Flash Attention T5 },
1322
- author={ Boris ALBAR and Loïck BOURDOIS },
1323
- organization={ Centre Aquitain des Technologies de l'Information et Electroniques },
1324
- year={2024},
1325
- url={ https://huggingface.co/spaces/CATIE-AQ/FAT5-report },
1326
- doi={ 10.57967/hf/0821 },
1327
- publisher= { Hugging Face }
1328
  }</pre>
1329
 
1330
  <d-appendix style="color: #9CA3AF;" >
 
1270
  <h4 id="passage-l-chelle">Taille des modèles</h4>
1271
  <p class="width_125"> Des T5/FLAN-T5 ont été entraînés jusqu'à 11 milliards de paramètres, montrant ainsi que cette architecture peut passer à l'échelle.<br>
1272
  Nous aimerions ainsi proposer des modèles de taille plus importante avec un FAT5-base et un FAT5-large de respectivement 305M et 973M de paramètres que nous souhaiterions ensuite distiller. L'objectif est de proposer des modèles consommant le moins possible en routine/inférence.<br>
1273
+ Nous nous attendons également à ce que les modèles distillés donnent de meilleures performances que des modèles de taille équivalente entraînés de zéro.<br>
1274
+ Cela doit nous permettre également de proposer des modèles qui seront utilisés en pratique. En effet, en l'état actuel pour le français, si l'utilisateur est davantage motivé par les performances plutôt que par la taille mémoire du modèle, il a davantage intérêt à utiliser un CamemBERTa 2.0 pour les tâches de classification. Le présent FAT5 doit ainsi davantage être vue comme une preuve de concept avant un passage à l'échelle qui doit le rendre compétitif.
1275
  <br><br></p>
1276
 
1277
  <h4 id="modeles-specialises">Les données d'entraînement</h4>
 
1293
  <p class="width_125">
1294
  Nous avons introduit le modèle FAT5 (Flash Attention T5) en détaillant notre démarche d’optimisation de différents éléments des processus de pré-entraînement et de finetuning.
1295
  Celui-ci se base sur des noyaux permettant d'utiliser la Flash Attention avec un T5 et de donner une mémoire linéaire au modèle.
1296
+ Nous avons notamment appliqué nos travaux au français en guise de preuve de concept et fait en sorte qu’il soit aussi utilisable dans n'importe quelle autre langue.
1297
  Nous espérons que notre méthode, permettant de pré-entraîner de zéro un modèle de 147M de paramètres pour 1 600€, pourra être utile aux personnes disposant de ressources de calculs limitées.
1298
  Elle ouvre également une voie vers un retour à un usage de modèles encodeur-décodeur plutôt qu’uniquement décodeur.<br>
1299
  <p class="width_125"><br><br></p>
 
1318
  </style>
1319
 
1320
  <h3 id="citation">Citation</h3>
1321
+ <pre class="citation long">@misc {FAT5,
1322
+ title = { FAT5: Flash Attention T5 },
1323
+ author = { Boris ALBAR and Loïck BOURDOIS },
1324
+ organization = { Centre Aquitain des Technologies de l'Information et Electroniques },
1325
+ year = 2025,
1326
+ url = { https://huggingface.co/spaces/CATIE-AQ/FAT5-report },
1327
+ doi = { 10.57967/hf/4160 },
1328
+ publisher = { Hugging Face }
1329
  }</pre>
1330
 
1331
  <d-appendix style="color: #9CA3AF;" >