Spaces:
Runtime error
Runtime error
<!--Copyright 2020 The HuggingFace Team. All rights reserved. | |
Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with | |
the License. You may obtain a copy of the License at | |
http://www.apache.org/licenses/LICENSE-2.0 | |
Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on | |
an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the | |
specific language governing permissions and limitations under the License. | |
β οΈ Note that this file is in Markdown but contain specific syntax for our doc-builder (similar to MDX) that may not be | |
rendered properly in your Markdown viewer. | |
--> | |
# Transformer λͺ¨λΈκ΅°[[the-transformer-model-family]] | |
2017λ μ μκ°λ [κΈ°λ³Έ Transformer](https://arxiv.org/abs/1706.03762) λͺ¨λΈμ μμ°μ΄ μ²λ¦¬(NLP) μμ μ λμ΄ μλ‘κ³ ν₯λ―Έλ‘μ΄ λͺ¨λΈλ€μ μκ°μ μ£Όμμ΅λλ€. [λ¨λ°±μ§ μ ν ꡬ쑰 μμΈ‘](https://huggingface.co/blog/deep-learning-with-proteins), [μΉνμ λ¬λ¦¬κΈ° νλ ¨](https://huggingface.co/blog/train-decision-transformers), [μκ³μ΄ μμΈ‘](https://huggingface.co/blog/time-series-transformers) λ±μ μν λ€μν λͺ¨λΈμ΄ μ겨λ¬μ΅λλ€. Transformerμ λ³νμ΄ λ무 λ§μμ, ν° κ·Έλ¦Όμ λμΉκΈ° μ½μ΅λλ€. νμ§λ§ μ¬κΈ° μλ λͺ¨λ λͺ¨λΈμ 곡ν΅μ μ κΈ°λ³Έ Trasnformer μν€ν μ²λ₯Ό κΈ°λ°μΌλ‘ νλ€λ μ μ λλ€. μΌλΆ λͺ¨λΈμ μΈμ½λ λλ λμ½λλ§ μ¬μ©νκ³ , λ€λ₯Έ λͺ¨λΈλ€μ μΈμ½λμ λμ½λλ₯Ό λͺ¨λ μ¬μ©νκΈ°λ ν©λλ€. μ΄λ κ² Transformer λͺ¨λΈκ΅° λ΄ μμ λ 벨μμμ μ°¨μ΄μ μ λΆλ₯νκ³ κ²ν νλ©΄ μ μ©ν λΆλ₯ 체κ³λ₯Ό μ»μ μ μμΌλ©°, μ΄μ μ μ ν΄λ³΄μ§ λͺ»ν Transformer λͺ¨λΈλ€ λν μ΄ν΄νλ λ° λμμ΄ λ κ²μ λλ€. | |
κΈ°λ³Έ Transformer λͺ¨λΈμ μ΅μνμ§ μκ±°λ 볡μ΅μ΄ νμν κ²½μ°, Hugging Face κ°μμ [νΈλμ€ν¬λ¨Έλ μ΄λ»κ² λμνλμ?](https://huggingface.co/course/chapter1/4?fw=pt) μ±ν°λ₯Ό νμΈνμΈμ. | |
<div align="center"> | |
<iframe width="560" height="315" src="https://www.youtube.com/embed/H39Z_720T5s" title="YouTube video player" | |
frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; | |
picture-in-picture" allowfullscreen></iframe> | |
</div> | |
## μ»΄ν¨ν° λΉμ [[computer-vision]] | |
<iframe style="border: 1px solid rgba(0, 0, 0, 0.1);" width="1000" height="450" src="https://www.figma.com/embed?embed_host=share&url=https%3A%2F%2Fwww.figma.com%2Ffile%2FacQBpeFBVvrDUlzFlkejoz%2FModelscape-timeline%3Fnode-id%3D0%253A1%26t%3Dm0zJ7m2BQ9oe0WtO-1" allowfullscreen></iframe> | |
### ν©μ±κ³± λ€νΈμν¬[[convolutional-network]] | |
[Vision Transformer](https://arxiv.org/abs/2010.11929)κ° νμ₯μ±κ³Ό ν¨μ¨μ±μ μ μ¦νκΈ° μ κΉμ§ μ€λ«λμ ν©μ±κ³± λ€νΈμν¬(CNN)κ° μ»΄ν¨ν° λΉμ μμ μ μ§λ°°μ μΈ ν¨λ¬λ€μμ΄μμ΅λλ€. κ·ΈλΌμλ λΆκ΅¬νκ³ , μ΄λ λΆλ³μ±(translation invariance)κ³Ό κ°μ CNNμ μ°μν λΆλΆμ΄ λλλΌμ§κΈ° λλ¬Έμ λͺλͺ (νΉν νΉμ κ³Όμ μμμ) Transformer λͺ¨λΈμ μν€ν μ²μ ν©μ±κ³±μ ν΅ν©νκΈ°λ νμ΅λλ€. [ConvNeXt](model_doc/convnext)λ μ΄λ° κ΄λ‘λ₯Ό λ€μ§μ΄ CNNμ νλννκΈ° μν΄ Transformerμ λμμΈμ μ°¨μ©ν©λλ€. μλ₯Ό λ€λ©΄ ConvNeXtλ κ²ΉμΉμ§ μλ μ¬λΌμ΄λ© μ°½(sliding window)μ μ¬μ©νμ¬ μ΄λ―Έμ§λ₯Ό ν¨μΉννκ³ , λ ν° μ»€λλ‘ μ μ μμ© νλ(global receptive field)λ₯Ό νμ₯μν΅λλ€. ConvNeXtλ λν λ©λͺ¨λ¦¬ ν¨μ¨μ λμ΄κ³ μ±λ₯μ ν₯μμν€κΈ° μν΄ μ¬λ¬ λ μ΄μ΄ μ€κ³λ₯Ό μ ννκΈ° λλ¬Έμ Transformerμ 견μ€λ§ν©λλ€! | |
### μΈμ½λ[[cv-encoder]] | |
[Vision Transformer(ViT)](model_doc/vit)λ ν©μ±κ³± μλ μ»΄ν¨ν° λΉμ μμ μ λ§μ μ΄μμ΅λλ€. ViTλ νμ€ Transformer μΈμ½λλ₯Ό μ¬μ©νμ§λ§, κ°μ₯ ν° νμ μ μ΄λ―Έμ§λ₯Ό μ²λ¦¬νλ λ°©μμ΄μμ΅λλ€. λ¬Έμ₯μ ν ν°μΌλ‘ λΆν νλ κ²μ²λΌ μ΄λ―Έμ§λ₯Ό κ³ μ λ ν¬κΈ°μ ν¨μΉλ‘ λΆν νκ³ , μ΄λ₯Ό μ¬μ©νμ¬ μλ² λ©μ μμ±ν©λλ€. ViTλ Transformerμ ν¨μ¨μ μΈ μν€ν μ²λ₯Ό νμ©νμ¬ νλ ¨μ λ μ μ μμμ μ¬μ©νλ©΄μλ λΉμ CNNμ λΉκ²¬νλ κ²°κ³Όλ₯Ό μ μ¦νμ΅λλ€. κ·Έλ¦¬κ³ ViTλ₯Ό λ€μ΄μ΄ λΆν (segmentation)κ³Ό κ°μ κ³ λ°λ λΉμ μμ κ³Ό νμ§ μμ λ λ€λ£° μ μλ λ€λ₯Έ λΉμ λͺ¨λΈμ΄ λ±μ₯νμ΅λλ€. | |
μ΄λ¬ν λͺ¨λΈ μ€ νλκ° [Swin](model_doc/swin) Transformerμ λλ€. μ΄ λͺ¨λΈμ μμ ν¬κΈ°μ ν¨μΉμμ κ³μΈ΅μ νΉμ§ 맡(CNN πκ³Ό κ°μ§λ§ ViTμλ λ€λ¦)μ λ§λ€κ³ λ κΉμ λ μ΄μ΄μ μΈμ ν¨μΉμ λ³ν©ν©λλ€. μ΄ν μ (Attention)μ μ§μ μλμ° λ΄μμλ§ κ³μ°λλ©°, λͺ¨λΈμ΄ λ μ νμ΅ν μ μλλ‘ μ΄ν μ λ μ΄μ΄ κ°μ μλμ°λ₯Ό μ΄λνλ©° μ°κ²°μ μμ±ν©λλ€. Swin Transformerλ κ³μΈ΅μ νΉμ§ 맡μ μμ±ν μ μμΌλ―λ‘, λΆν (segmentation)κ³Ό νμ§μ κ°μ κ³ λ°λ μμΈ‘ μμ μ μ ν©ν©λλ€. [SegFormer](model_doc/segformer) μμ Transformer μΈμ½λλ₯Ό μ¬μ©νμ¬ κ³μΈ΅μ νΉμ§ 맡μ ꡬμΆνμ§λ§, μλ¨μ κ°λ¨ν λ€μΈ΅ νΌμ νΈλ‘ (MLP) λμ½λλ₯Ό μΆκ°νμ¬ λͺ¨λ νΉμ§ 맡μ κ²°ν©νκ³ μμΈ‘μ μνν©λλ€. | |
BeITμ ViTMAEμ κ°μ λ€λ₯Έ λΉμ λͺ¨λΈμ BERTμ μ¬μ νλ ¨ λͺ©ν(objective)μμ μκ°μ μ»μμ΅λλ€. [BeIT](model_doc/beit)λ *λ§μ€ν¬λ μ΄λ―Έμ§ λͺ¨λΈλ§(MIM)*μΌλ‘ μ¬μ νλ ¨λλ©°, μ΄λ―Έμ§ ν¨μΉλ μμλ‘ λ§μ€νΉλκ³ μ΄λ―Έμ§λ μκ°μ ν ν°μΌλ‘ ν ν°νλ©λλ€. BeITλ λ§μ€νΉλ ν¨μΉμ ν΄λΉνλ μκ°μ ν ν°μ μμΈ‘νλλ‘ νμ΅λ©λλ€. [ViTMAE](model_doc/vitmae)λ λΉμ·ν μ¬μ νλ ¨ λͺ©νκ° μμ§λ§, μκ°μ ν ν° λμ ν½μ μ μμΈ‘ν΄μΌ νλ€λ μ μ΄ λ€λ¦ λλ€. νΉμ΄ν μ μ μ΄λ―Έμ§ ν¨μΉμ 75%κ° λ§μ€νΉλμ΄ μλ€λ κ²μ λλ€! λμ½λλ λ§μ€νΉλ ν ν°κ³Ό μΈμ½λ©λ ν¨μΉμμ ν½μ μ μ¬κ΅¬μ±ν©λλ€. μ¬μ νλ ¨μ΄ λλλ©΄ λμ½λλ νκΈ°λκ³ μΈμ½λλ λ€μ΄μ€νΈλ¦Ό μμ μ μ¬μ©ν μ€λΉκ° λ©λλ€. | |
### λμ½λ[[cv-decoder]] | |
λλΆλΆμ λΉμ λͺ¨λΈμ μΈμ½λμ μμ‘΄νμ¬ μ΄λ―Έμ§ ννμ νμ΅νκΈ° λλ¬Έμ λμ½λ μ μ© λΉμ λͺ¨λΈμ λλ λλ€. νμ§λ§ μ΄λ―Έμ§ μμ± λ±μ μ¬λ‘μ κ²½μ°, GPT-2μ κ°μ ν μ€νΈ μμ± λͺ¨λΈμμ 보μλ―μ΄ λμ½λκ° κ°μ₯ μ ν©ν©λλ€. [ImageGPT](model_doc/imagegpt)λ GPT-2μ λμΌν μν€ν μ²λ₯Ό μ¬μ©νμ§λ§, μνμ€μ λ€μ ν ν°μ μμΈ‘νλ λμ μ΄λ―Έμ§μ λ€μ ν½μ μ μμΈ‘ν©λλ€. ImageGPTλ μ΄λ―Έμ§ μμ± λΏλ§ μλλΌ μ΄λ―Έμ§ λΆλ₯λ₯Ό μν΄ λ―ΈμΈ μ‘°μ ν μλ μμ΅λλ€. | |
### μΈμ½λ-λμ½λ[[cv-encoder-decoder]] | |
λΉμ λͺ¨λΈμ μΌλ°μ μΌλ‘ μΈμ½λ(λ°±λ³ΈμΌλ‘λ μλ €μ§)λ₯Ό μ¬μ©νμ¬ μ€μν μ΄λ―Έμ§ νΉμ§μ μΆμΆν ν, μ΄λ₯Ό Transformer λμ½λλ‘ μ λ¬ν©λλ€. [DETR](model_doc/detr)μ μ¬μ νλ ¨λ λ°±λ³Έμ΄ μμ§λ§, κ°μ²΄ νμ§λ₯Ό μν΄ μμ ν Transformer μΈμ½λ-λμ½λ μν€ν μ²λ μ¬μ©ν©λλ€. μΈμ½λλ μ΄λ―Έμ§ ννμ νμ΅νκ³ μ΄λ₯Ό λμ½λμμ κ°μ²΄ 쿼리(κ° κ°μ²΄ 쿼리λ μ΄λ―Έμ§μ μμ λλ κ°μ²΄μ μ€μ μ λκ³ νμ΅λ μλ² λ©)μ κ²°ν©ν©λλ€. DETRμ κ° κ°μ²΄ 쿼리μ λν λ°μ΄λ© λ°μ€ μ’νμ ν΄λμ€ λ μ΄λΈμ μμΈ‘ν©λλ€. | |
## μμ°μ΄μ²λ¦¬[[natural-language-processing]] | |
<iframe style="border: 1px solid rgba(0, 0, 0, 0.1);" width="1000" height="450" src="https://www.figma.com/embed?embed_host=share&url=https%3A%2F%2Fwww.figma.com%2Ffile%2FUhbQAZDlpYW5XEpdFy6GoG%2Fnlp-model-timeline%3Fnode-id%3D0%253A1%26t%3D4mZMr4r1vDEYGJ50-1" allowfullscreen></iframe> | |
### μΈμ½λ[[nlp-encoder]] | |
[BERT](model_doc/bert)λ μΈμ½λ μ μ© Transformerλ‘, λ€λ₯Έ ν ν°μ λ³΄κ³ μμ "λΆμ νμ"λ₯Ό μ μ§λ₯΄λ κ±Έ λ§κΈ° μν΄ μ λ ₯μμ νΉμ ν ν°μ μμλ‘ λ§μ€νΉν©λλ€. μ¬μ νλ ¨μ λͺ©νλ 컨ν μ€νΈλ₯Ό κΈ°λ°μΌλ‘ λ§μ€νΉλ ν ν°μ μμΈ‘νλ κ²μ λλ€. μ΄λ₯Ό ν΅ν΄ BERTλ μΌμͺ½κ³Ό μ€λ₯Έμͺ½ 컨ν μ€νΈλ₯Ό μΆ©λΆν νμ©νμ¬ μ λ ₯μ λν΄ λ κΉκ³ νλΆν ννμ νμ΅ν μ μμ΅λλ€. κ·Έλ¬λ BERTμ μ¬μ νλ ¨ μ λ΅μλ μ¬μ ν κ°μ μ μ¬μ§κ° λ¨μ μμμ΅λλ€. [RoBERTa](model_doc/roberta)λ λ κΈ΄ μκ° λμ λ ν° λ°°μΉμ λν νλ ¨μ ν¬ν¨νκ³ , μ μ²λ¦¬ μ€μ ν λ²λ§ λ§μ€νΉνλ κ²μ΄ μλλΌ κ° μνμμ ν ν°μ μμλ‘ λ§μ€νΉνκ³ , λ€μ λ¬Έμ₯ μμΈ‘ λͺ©νλ₯Ό μ κ±°νλ μλ‘μ΄ μ¬μ νλ ¨ λ°©μμ λμ ν¨μΌλ‘μ¨ μ΄λ₯Ό κ°μ νμ΅λλ€. | |
μ±λ₯ κ°μ μ μν μ λ΅μΌλ‘ λͺ¨λΈ ν¬κΈ°λ₯Ό ν€μ°λ κ²μ΄ μ§λ°°μ μ λλ€. νμ§λ§ ν° λͺ¨λΈμ νλ ¨νλ €λ©΄ κ³μ° λΉμ©μ΄ λ§μ΄ λλλ€. κ³μ° λΉμ©μ μ€μ΄λ ν κ°μ§ λ°©λ²μ [DistilBERT](model_doc/distilbert)μ κ°μ΄ μμ λͺ¨λΈμ μ¬μ©νλ κ²μ λλ€. DistilBERTλ μμΆ κΈ°λ²μΈ [μ§μ μ¦λ₯(knowledge distillation)](https://arxiv.org/abs/1503.02531)λ₯Ό μ¬μ©νμ¬, κ±°μ λͺ¨λ μΈμ΄ μ΄ν΄ λ₯λ ₯μ μ μ§νλ©΄μ λ μμ λ²μ μ BERTλ₯Ό λ§λλλ€. | |
κ·Έλ¬λ λλΆλΆμ Transformer λͺ¨λΈμ λ λ§μ 맀κ°λ³μλ₯Ό μ¬μ©νλ κ²½ν₯μ΄ μ΄μ΄μ‘κ³ , μ΄μ λ°λΌ νλ ¨ ν¨μ¨μ±μ κ°μ νλ κ²μ μ€μ μ λ μλ‘μ΄ λͺ¨λΈμ΄ λ±μ₯νμ΅λλ€. [ALBERT](model_doc/albert)λ λ κ°μ§ λ°©λ²μΌλ‘ 맀κ°λ³μ μλ₯Ό μ€μ¬ λ©λͺ¨λ¦¬ μ¬μ©λμ μ€μμ΅λλ€. λ°λ‘ ν° μ΄νλ₯Ό λ κ°μ μμ νλ ¬λ‘ λΆλ¦¬νλ κ²κ³Ό λ μ΄μ΄κ° 맀κ°λ³μλ₯Ό 곡μ νλλ‘ νλ κ²μ λλ€. [DeBERTa](model_doc/deberta)λ λ¨μ΄μ κ·Έ μμΉλ₯Ό λ κ°μ 벑ν°λ‘ κ°λ³μ μΌλ‘ μΈμ½λ©νλ λΆλ¦¬λ(disentangled) μ΄ν μ λ©μ»€λμ¦μ μΆκ°νμ΅λλ€. μ΄ν μ μ λ¨μ΄μ μμΉ μλ² λ©μ ν¬ν¨νλ λ¨μΌ λ²‘ν° λμ μ΄ λ³λμ 벑ν°μμ κ³μ°λ©λλ€. [Longformer](model_doc/longformer)λ νΉν μνμ€ κΈΈμ΄κ° κΈ΄ λ¬Έμλ₯Ό μ²λ¦¬ν λ, μ΄ν μ μ λ ν¨μ¨μ μΌλ‘ λ§λλ κ²μ μ€μ μ λμμ΅λλ€. μ§μ(local) μλμ° μ΄ν μ (κ° ν ν° μ£Όλ³μ κ³ μ λ μλμ° ν¬κΈ°μμλ§ κ³μ°λλ μ΄ν μ )κ³Ό μ μ(global) μ΄ν μ (λΆλ₯λ₯Ό μν΄ `[CLS]`μ κ°μ νΉμ μμ ν ν°μλ§ ν΄λΉ)μ μ‘°ν©μ μ¬μ©νμ¬ μ 체(full) μ΄ν μ νλ ¬ λμ ν¬μ(sparse) μ΄ν μ νλ ¬μ μμ±ν©λλ€. | |
### λμ½λ[[nlp-decoder]] | |
[GPT-2](model_doc/gpt2)λ μνμ€μμ λ€μ λ¨μ΄λ₯Ό μμΈ‘νλ λμ½λ μ μ© Transformerμ λλ€. ν ν°μ μ€λ₯Έμͺ½μΌλ‘ λ§μ€νΉνμ¬ λͺ¨λΈμ΄ μ΄μ ν ν°μ λ³΄κ³ "λΆμ νμ"λ₯Ό νμ§ λͺ»νλλ‘ ν©λλ€. GPT-2λ λ°©λν ν μ€νΈμ λν΄ μ¬μ νλ ¨νμ¬ ν μ€νΈκ° μΌλΆλ§ μ ννκ±°λ μ¬μ€μΈ κ²½μ°μλ μλΉν λ₯μνκ² ν μ€νΈλ₯Ό μμ±ν μ μκ² λμμ΅λλ€. νμ§λ§ GPT-2λ BERTκ° μ¬μ νλ ¨μμ κ°λ μλ°©ν₯ 컨ν μ€νΈκ° λΆμ‘±νκΈ° λλ¬Έμ νΉμ μμ μ μ ν©νμ§ μμμ΅λλ€. [XLNET](model_doc/xlnet)μ μλ°©ν₯ νλ ¨μ΄ κ°λ₯ν permutation language modeling objective(PLM)λ₯Ό μ¬μ©νμ¬ BERTμ GPT-2μ μ¬μ νλ ¨ λͺ©νμ λν μ₯μ μ ν¨κ» κ°μ§κ³ μμ΅λλ€. | |
GPT-2 μ΄ν, μΈμ΄ λͺ¨λΈμ λμ± κ±°λν΄μ‘κ³ νμ¬λ *λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)*λ‘ μλ €μ Έ μμ΅λλ€. μΆ©λΆν ν° λ°μ΄ν° μΈνΈλ‘ μ¬μ νλ ¨λ LLMμ ν¨μ·(few-shot) λλ μ λ‘μ·(zero-shot) νμ΅μ μνν©λλ€. [GPT-J](model_doc/gptj)λ 6B ν¬κΈ°μ 맀κ°λ³μκ° μκ³ 400B ν¬κΈ°μ ν ν°μΌλ‘ νλ ¨λ LLMμ λλ€. GPT-Jμ μ΄μ΄ λμ½λ μ μ© λͺ¨λΈκ΅°μΈ [OPT](model_doc/opt)κ° λ±μ₯νμΌλ©°, μ΄ μ€ κ°μ₯ ν° λͺ¨λΈμ 175B ν¬κΈ°μ΄κ³ 180B ν¬κΈ°μ ν ν°μΌλ‘ νλ ¨λμμ΅λλ€. [BLOOM](model_doc/bloom)μ λΉμ·ν μκΈ°μ μΆμλμμΌλ©°, μ΄ μ€ κ°μ₯ ν° λͺ¨λΈμ 176B ν¬κΈ°μ 맀κ°λ³μκ° μκ³ 46κ°μ μΈμ΄μ 13κ°μ νλ‘κ·Έλλ° μΈμ΄λ‘ λ 366B ν¬κΈ°μ ν ν°μΌλ‘ νλ ¨λμμ΅λλ€. | |
### μΈμ½λ-λμ½λ[[nlp-encoder-decoder]] | |
[BART](model_doc/bart)λ κΈ°λ³Έ Transformer μν€ν μ²λ₯Ό μ μ§νμ§λ§, μΌλΆ ν μ€νΈ μ€ν¬(span)μ΄ λ¨μΌ `λ§μ€ν¬` ν ν°μΌλ‘ λ체λλ *text infilling* λ³νμΌλ‘ μ¬μ νλ ¨ λͺ©νλ₯Ό μμ ν©λλ€. λμ½λλ λ³νλμ§ μμ ν ν°(ν₯ν ν ν°μ λ§μ€νΉλ¨)μ μμΈ‘νκ³ μΈμ½λμ μλ μνλ₯Ό μ¬μ©νμ¬ μ΄ μμ μ λμ΅λλ€. [Pegasus](model_doc/pegasus)λ BARTμ μ μ¬νμ§λ§, Pegasusλ ν μ€νΈ μ€ν¬ λμ μ 체 λ¬Έμ₯μ λ§μ€νΉν©λλ€. Pegasusλ λ§μ€ν¬λ μΈμ΄ λͺ¨λΈλ§ μΈμλ gap sentence generation(GSG)λ‘ μ¬μ νλ ¨λ©λλ€. GSGλ λ¬Έμμ μ€μν λ¬Έμ₯ μ 체λ₯Ό λ§μ€νΉνμ¬ `λ§μ€ν¬` ν ν°μΌλ‘ λ체νλ κ²μ λͺ©νλ‘ ν©λλ€. λμ½λλ λ¨μ λ¬Έμ₯μμ μΆλ ₯μ μμ±ν΄μΌ ν©λλ€. [T5](model_doc/t5)λ νΉμ μ λμ¬λ₯Ό μ¬μ©νμ¬ λͺ¨λ NLP μμ μ ν μ€νΈ ν¬ ν μ€νΈ λ¬Έμ λ‘ λ³ννλ λ νΉμν λͺ¨λΈμ λλ€. μλ₯Ό λ€μ΄, μ λμ¬ `Summarize:`μ μμ½ μμ μ λνλ λλ€. T5λ μ§λ(GLUE λ° SuperGLUE) νλ ¨κ³Ό μκΈ°μ§λ νλ ¨(ν ν°μ 15%λ₯Ό μμλ‘ μνλ§νμ¬ μ κ±°)μΌλ‘ μ¬μ νλ ¨λ©λλ€. | |
## μ€λμ€[[audio]] | |
<iframe style="border: 1px solid rgba(0, 0, 0, 0.1);" width="1000" height="450" src="https://www.figma.com/embed?embed_host=share&url=https%3A%2F%2Fwww.figma.com%2Ffile%2Fvrchl8jDV9YwNVPWu2W0kK%2Fspeech-and-audio-model-timeline%3Fnode-id%3D0%253A1%26t%3DmM4H8pPMuK23rClL-1" allowfullscreen></iframe> | |
### μΈμ½λ[[audio-encoder]] | |
[Wav2Vec2](model_doc/wav2vec2)λ Transformer μΈμ½λλ₯Ό μ¬μ©νμ¬ μλ³Έ μ€λμ€ νν(raw audio waveform)μμ μ§μ μμ± ννμ νμ΅ν©λλ€. νμ μμ± νν μΈνΈμμ μ€μ μμ± ννμ νλ³νλ λμ‘° μμ μΌλ‘ μ¬μ νλ ¨λ©λλ€. [HuBERT](model_doc/hubert)λ Wav2Vec2μ μ μ¬νμ§λ§ νλ ¨ κ³Όμ μ΄ λ€λ¦ λλ€. νκ² λ μ΄λΈμ΄ μ μ¬ν μ€λμ€ μΈκ·Έλ¨ΌνΈκ° ν΄λ¬μ€ν°μ ν λΉλμ΄ μλ λ¨μ(unit)κ° λλ κ΅°μ§ν(clustering) λ¨κ³μμ μμ±λ©λλ€. μλ λ¨μλ μμΈ‘μ μν μλ² λ©μ 맀νλ©λλ€. | |
### μΈμ½λ-λμ½λ[[audio-encoder-decoder]] | |
[Speech2Text](model_doc/speech_to_text)λ μλ μμ± μΈμ(ASR) λ° μμ± λ²μμ μν΄ κ³ μλ μμ± λͺ¨λΈμ λλ€. μ΄ λͺ¨λΈμ μ€λμ€ ννμμ μΆμΆν log mel-filter bank νΉμ§μ μ±ννκ³ μκΈ°νκ· λ°©μμΌλ‘ μ¬μ νλ ¨νμ¬, μ μ¬λ³Έ λλ λ²μμ λ§λλλ€. [Whisper](model_doc/whisper)μ ASR λͺ¨λΈμ΄μ§λ§, λ€λ₯Έ λ§μ μμ± λͺ¨λΈκ³Ό λ¬λ¦¬ μ λ‘μ· μ±λ₯μ μν΄ λλμ β¨ λ μ΄λΈμ΄ μ§μ λ β¨ μ€λμ€ μ μ¬ λ°μ΄ν°μ λν΄ μ¬μ νλ ¨λ©λλ€. λ°μ΄ν° μΈνΈμ ν° λ¬Άμμλ μμ΄κ° μλ μΈμ΄λ ν¬ν¨λμ΄ μμ΄μ μμμ΄ μ μ μΈμ΄μλ Whisperλ₯Ό μ¬μ©ν μ μμ΅λλ€. ꡬ쑰μ μΌλ‘, Whisperλ Speech2Textμ μ μ¬ν©λλ€. μ€λμ€ μ νΈλ μΈμ½λμ μν΄ μΈμ½λ©λ log-mel spectrogramμΌλ‘ λ³νλ©λλ€. λμ½λλ μΈμ½λμ μλ μνμ μ΄μ ν ν°μΌλ‘λΆν° μκΈ°νκ· λ°©μμΌλ‘ μ μ¬λ₯Ό μμ±ν©λλ€. | |
## λ©ν°λͺ¨λ¬[[multimodal]] | |
<iframe style="border: 1px solid rgba(0, 0, 0, 0.1);" width="1000" height="450" src="https://www.figma.com/embed?embed_host=share&url=https%3A%2F%2Fwww.figma.com%2Ffile%2FcX125FQHXJS2gxeICiY93p%2Fmultimodal%3Fnode-id%3D0%253A1%26t%3DhPQwdx3HFPWJWnVf-1" allowfullscreen></iframe> | |
### μΈμ½λ[[mm-encoder]] | |
[VisualBERT](model_doc/visual_bert)λ BERT μ΄νμ μΆμλ λΉμ μΈμ΄ μμ μ μν λ©ν°λͺ¨λ¬ λͺ¨λΈμ λλ€. μ΄ λͺ¨λΈμ BERTμ μ¬μ νλ ¨λ κ°μ²΄ νμ§ μμ€ν μ κ²°ν©νμ¬ μ΄λ―Έμ§ νΉμ§μ μκ° μλ² λ©μΌλ‘ μΆμΆνκ³ , ν μ€νΈ μλ² λ©κ³Ό ν¨κ» BERTλ‘ μ λ¬ν©λλ€. VisualBERTλ λ§μ€νΉλμ§ μμ ν μ€νΈμ μκ° μλ² λ©μ κΈ°λ°μΌλ‘ λ§μ€νΉλ ν μ€νΈλ₯Ό μμΈ‘νκ³ , ν μ€νΈκ° μ΄λ―Έμ§μ μΌμΉνλμ§ μμΈ‘ν΄μΌ ν©λλ€. ViTκ° μ΄λ―Έμ§ μλ² λ©μ ꡬνλ λ°©μμ΄ λ μ¬μ κΈ° λλ¬Έμ, ViTκ° μΆμλ ν [ViLT](model_doc/vilt)λ μν€ν μ²μ ViTλ₯Ό μ±ννμ΅λλ€. μ΄λ―Έμ§ μλ² λ©μ ν μ€νΈ μλ² λ©κ³Ό ν¨κ» μ²λ¦¬λ©λλ€. μ¬κΈ°μμ, ViLTλ μ΄λ―Έμ§ ν μ€νΈ 맀μΉ, λ§μ€ν¬λ μΈμ΄ λͺ¨λΈλ§, μ 체 λ¨μ΄ λ§μ€νΉμ ν΅ν΄ μ¬μ νλ ¨λ©λλ€. | |
[CLIP](model_doc/clip)μ λ€λ₯Έ μ κ·Ό λ°©μμ μ¬μ©νμ¬ (`μ΄λ―Έμ§`, `ν μ€νΈ`)μ μ μμΈ‘μ μνν©λλ€. (`μ΄λ―Έμ§`, `ν μ€νΈ`) μμμμ μ΄λ―Έμ§μ ν μ€νΈ μλ² λ© κ°μ μ μ¬λλ₯Ό μ΅λννκΈ° μν΄ 4μ΅ κ°μ (`μ΄λ―Έμ§`, `ν μ€νΈ`) μ λ°μ΄ν° μΈνΈμ λν΄ μ΄λ―Έμ§ μΈμ½λ(ViT)μ ν μ€νΈ μΈμ½λ(Transformer)λ₯Ό ν¨κ» νλ ¨ν©λλ€. μ¬μ νλ ¨ ν, μμ°μ΄λ₯Ό μ¬μ©νμ¬ μ΄λ―Έμ§κ° μ£Όμ΄μ§ ν μ€νΈλ₯Ό μμΈ‘νκ±°λ κ·Έ λ°λλ‘ μμΈ‘νλλ‘ CLIPμ μ§μν μ μμ΅λλ€. [OWL-ViT](model_doc/owlvit)λ CLIPμ μ λ‘μ· κ°μ²΄ νμ§λ₯Ό μν λ°±λ³Έ(backbone)μΌλ‘ μ¬μ©νμ¬ CLIP μμ ꡬμΆλ©λλ€. μ¬μ νλ ¨ ν, κ°μ²΄ νμ§ ν€λκ° μΆκ°λμ΄ (`ν΄λμ€`, `λ°μ΄λ© λ°μ€`) μμ λν μ§ν©(set) μμΈ‘μ μνν©λλ€. | |
### μΈμ½λ-λμ½λ[[mm-encoder-decoder]] | |
κ΄ν λ¬Έμ μΈμ(OCR)μ μ΄λ―Έμ§λ₯Ό μ΄ν΄νκ³ ν μ€νΈλ₯Ό μμ±νκΈ° μν΄ λ€μν κ΅¬μ± μμλ₯Ό νμλ‘ νλ μ ν΅μ μΈ ν μ€νΈ μΈμ μμ μ λλ€. [TrOCR](model_doc/trocr)μ μ’ λ¨κ°(end-to-end) Transformerλ₯Ό μ¬μ©νμ¬ μ΄ νλ‘μΈμ€λ₯Ό κ°μνν©λλ€. μΈμ½λλ μ΄λ―Έμ§ μ΄ν΄λ₯Ό μν ViT λ°©μμ λͺ¨λΈμ΄λ©° μ΄λ―Έμ§λ₯Ό κ³ μ λ ν¬κΈ°μ ν¨μΉλ‘ μ²λ¦¬ν©λλ€. λμ½λλ μΈμ½λμ μλ μνλ₯Ό λ°μμ μκΈ°νκ· λ°©μμΌλ‘ ν μ€νΈλ₯Ό μμ±ν©λλ€. [Donut](model_doc/donut)μ OCR κΈ°λ° μ κ·Ό λ°©μμ μμ‘΄νμ§ μλ λ μΌλ°μ μΈ μκ° λ¬Έμ μ΄ν΄ λͺ¨λΈμ λλ€. μ΄ λͺ¨λΈμ Swin Transformerλ₯Ό μΈμ½λλ‘, λ€κ΅μ΄ BARTλ₯Ό λμ½λλ‘ μ¬μ©ν©λλ€. Donutμ μ΄λ―Έμ§μ ν μ€νΈ μ£Όμμ κΈ°λ°μΌλ‘ λ€μ λ¨μ΄λ₯Ό μμΈ‘νμ¬ ν μ€νΈλ₯Ό μ½λλ‘ μ¬μ νλ ¨λ©λλ€. λμ½λλ ν둬ννΈκ° μ£Όμ΄μ§λ©΄ ν ν° μνμ€λ₯Ό μμ±ν©λλ€. ν둬ννΈλ κ° λ€μ΄μ€νΈλ¦Ό μμ μ λν νΉμ ν ν°μΌλ‘ ννλ©λλ€. μλ₯Ό λ€μ΄, λ¬Έμ νμ±(parsing)μλ μΈμ½λμ μλ μνμ κ²°ν©λμ΄ λ¬Έμλ₯Ό μ ν μΆλ ₯ νμ(JSON)μΌλ‘ νμ±νλ νΉμ `νμ±` ν ν°μ΄ μμ΅λλ€. | |
## κ°ν νμ΅[[reinforcement-learning]] | |
<iframe style="border: 1px solid rgba(0, 0, 0, 0.1);" width="1000" height="450" src="https://www.figma.com/embed?embed_host=share&url=https%3A%2F%2Fwww.figma.com%2Ffile%2FiB3Y6RvWYki7ZuKO6tNgZq%2Freinforcement-learning%3Fnode-id%3D0%253A1%26t%3DhPQwdx3HFPWJWnVf-1" allowfullscreen></iframe> | |
### λμ½λ[[rl-decoder]] | |
Decision λ° Trajectory Transformerλ μν(state), νλ(action), 보μ(reward)μ μνμ€ λͺ¨λΈλ§ λ¬Έμ λ‘ ννν©λλ€. [Decision Transformer](model_doc/decision_transformer)λ κΈ°λ 보μ(returns-to-go), κ³Όκ±° μν λ° νλμ κΈ°λ°μΌλ‘ λ―Έλμ μνλ μμ΅(return)μΌλ‘ μ΄μ΄μ§λ μΌλ ¨μ νλμ μμ±ν©λλ€. λ§μ§λ§ *K* μκ° μ€ν (timestep)μ λν΄, μΈ κ°μ§ λͺ¨λ¬λ¦¬ν°λ κ°κ° ν ν° μλ² λ©μΌλ‘ λ³νλκ³ GPTμ κ°μ λͺ¨λΈμ μν΄ μ²λ¦¬λμ΄ λ―Έλμ μ‘μ ν ν°μ μμΈ‘ν©λλ€. [Trajectory Transformer](model_doc/trajectory_transformer)λ μν, νλ, 보μμ ν ν°ννμ¬ GPT μν€ν μ²λ‘ μ²λ¦¬ν©λλ€. 보μ 쑰건μ μ€μ μ λ Decision Transformerμ λ¬λ¦¬ Trajectory Transformerλ λΉ μμΉ(beam search)λ‘ λ―Έλ νλμ μμ±ν©λλ€. |