# ๐ค Transformers็ฎไป
ไธบ [PyTorch](https://pytorch.org/)ใ[TensorFlow](https://www.tensorflow.org/) ๅ [JAX](https://jax.readthedocs.io/en/latest/) ๆ้ ็ๅ
่ฟ็ๆบๅจๅญฆไน ๅทฅๅ
ท.
๐ค Transformers ๆไพไบๅฏไปฅ่ฝปๆพๅฐไธ่ฝฝๅนถไธ่ฎญ็ปๅ
่ฟ็้ข่ฎญ็ปๆจกๅ็ API ๅๅทฅๅ
ทใไฝฟ็จ้ข่ฎญ็ปๆจกๅๅฏไปฅๅๅฐ่ฎก็ฎๆถ่ๅ็ขณๆๆพ๏ผๅนถไธ่็ไปๅคด่ฎญ็ปๆ้่ฆ็ๆถ้ดๅ่ตๆบใ่ฟไบๆจกๅๆฏๆไธๅๆจกๆไธญ็ๅธธ่งไปปๅก๏ผๆฏๅฆ๏ผ
๐ **่ช็ถ่ฏญ่จๅค็**๏ผๆๆฌๅ็ฑปใๅฝๅๅฎไฝ่ฏๅซใ้ฎ็ญใ่ฏญ่จๅปบๆจกใๆ่ฆใ็ฟป่ฏใๅค้กน้ๆฉๅๆๆฌ็ๆใ
๐ผ๏ธ **ๆบๅจ่ง่ง**๏ผๅพๅๅ็ฑปใ็ฎๆ ๆฃๆตๅ่ฏญไนๅๅฒใ
๐ฃ๏ธ **้ณ้ข**๏ผ่ชๅจ่ฏญ้ณ่ฏๅซๅ้ณ้ขๅ็ฑปใ
๐ **ๅคๆจกๆ**๏ผ่กจๆ ผ้ฎ็ญใๅ
ๅญฆๅญ็ฌฆ่ฏๅซใไปๆซๆๆๆกฃๆๅไฟกๆฏใ่ง้ขๅ็ฑปๅ่ง่ง้ฎ็ญใ
๐ค Transformers ๆฏๆๅจ PyTorchใTensorFlow ๅ JAX ไธ็ไบๆไฝๆง. ่ฟ็ปๅจๆจกๅ็ๆฏไธช้ถๆฎตไฝฟ็จไธๅ็ๆกๆถๅธฆๆฅไบ็ตๆดปๆง๏ผๅจไธไธชๆกๆถไธญไฝฟ็จๅ ่กไปฃ็ ่ฎญ็ปไธไธชๆจกๅ๏ผ็ถๅๅจๅฆไธไธชๆกๆถไธญๅ ่ฝฝๅฎๅนถ่ฟ่กๆจ็ใๆจกๅไนๅฏไปฅ่ขซๅฏผๅบไธบ ONNX ๅ TorchScript ๆ ผๅผ๏ผ็จไบๅจ็ไบง็ฏๅขไธญ้จ็ฝฒใ
้ฉฌไธๅ ๅ
ฅๅจ [Hub](https://huggingface.co/models)ใ[่ฎบๅ](https://discuss.huggingface.co/) ๆ่
[Discord](https://discord.com/invite/JfAtkvEtRb) ไธๆญฃๅจๅฟซ้ๅๅฑ็็คพๅบๅง๏ผ
## ๅฆๆไฝ ้่ฆๆฅ่ช Hugging Face ๅข้็ไธชๆงๅๆฏๆ
## ็ฎๅฝ
่ฟ็ฏๆๆกฃ็ฑไปฅไธ 5 ไธช็ซ ่็ปๆ๏ผ
- **ๅผๅงไฝฟ็จ** ๅ
ๅซไบๅบ็ๅฟซ้ไธๆๅๅฎ่ฃ
่ฏดๆ๏ผไพฟไบ้
็ฝฎๅ่ฟ่กใ
- **ๆ็จ** ๆฏไธไธชๅๅญฆ่
ๅผๅง็ๅฅฝๅฐๆนใๆฌ็ซ ่ๅฐๅธฎๅฉไฝ ่ทๅพไฝ ไผ็จๅฐ็ไฝฟ็จ่ฟไธชๅบ็ๅบๆฌๆ่ฝใ
- **ๆไฝๆๅ** ๅไฝ ๅฑ็คบๅฆไฝๅฎ็ฐไธไธช็นๅฎ็ฎๆ ๏ผๆฏๅฆไธบ่ฏญ่จๅปบๆจกๅพฎ่ฐไธไธช้ข่ฎญ็ปๆจกๅๆ่
ๅฆไฝๅ้ ๅนถๅไบซไธชๆงๅๆจกๅใ
- **ๆฆๅฟตๆๅ** ๅฏน ๐ค Transformers ็ๆจกๅ๏ผไปปๅกๅ่ฎพ่ฎก็ๅฟต่ๅ็ๅบๆฌๆฆๅฟตๅๆๆณๅไบๆดๅค็่ฎจ่ฎบๅ่งฃ้ใ
- **API ไป็ป** ๆ่ฟฐไบๆๆ็็ฑปๅๅฝๆฐ๏ผ
- **ไธป่ฆ็ฑปๅซ** ่ฏฆ่ฟฐไบ้
็ฝฎ๏ผconfiguration๏ผใๆจกๅ๏ผmodel๏ผใๅ่ฏๅจ๏ผtokenizer๏ผๅๆตๆฐด็บฟ๏ผpipeline๏ผ่ฟๅ ไธชๆ้่ฆ็็ฑปใ
- **ๆจกๅ** ่ฏฆ่ฟฐไบๅจ่ฟไธชๅบไธญๅๆฏไธชๆจกๅๅฎ็ฐๆๅ
ณ็็ฑปๅๅฝๆฐใ
- **ๅ
้จๅธฎๅฉ** ่ฏฆ่ฟฐไบๅ
้จไฝฟ็จ็ๅทฅๅ
ท็ฑปๅๅฝๆฐใ
### ๆฏๆ็ๆจกๅๅๆกๆถ
ไธ่กจๅฑ็คบไบๅบไธญๅฏนๆฏไธชๆจกๅ็ๆฏๆๆ
ๅต๏ผๅฆๆฏๅฆๅ
ทๆ Python ๅ่ฏๅจ๏ผ่กจไธญ็โTokenizer slowโ๏ผใๆฏๅฆๅ
ทๆ็ฑ ๐ค Tokenizers ๅบๆฏๆ็ๅฟซ้ๅ่ฏๅจ๏ผ่กจไธญ็โTokenizer fastโ๏ผใๆฏๅฆๆฏๆ Jax๏ผ้่ฟ Flax๏ผใPyTorch ไธ TensorFlowใ
| ๆจกๅ | PyTorch ๆฏๆ | TensorFlow ๆฏๆ | Flax ๆฏๆ |
|:------------------------------------------------------------------------:|:---------------:|:------------------:|:------------:|
| [ALBERT](../en/model_doc/albert.md) | โ
| โ
| โ
|
| [ALIGN](../en/model_doc/align.md) | โ
| โ | โ |
| [AltCLIP](../en/model_doc/altclip) | โ
| โ | โ |
| [Audio Spectrogram Transformer](../en/model_doc/audio-spectrogram-transformer) | โ
| โ | โ |
| [Autoformer](../en/model_doc/autoformer) | โ
| โ | โ |
| [Bark](../en/model_doc/bark) | โ
| โ | โ |
| [BART](../en/model_doc/bart) | โ
| โ
| โ
|
| [BARThez](../en/model_doc/barthez) | โ
| โ
| โ
|
| [BARTpho](../en/model_doc/bartpho) | โ
| โ
| โ
|
| [BEiT](../en/model_doc/beit) | โ
| โ | โ
|
| [BERT](../en/model_doc/bert) | โ
| โ
| โ
|
| [Bert Generation](../en/model_doc/bert-generation) | โ
| โ | โ |
| [BertJapanese](../en/model_doc/bert-japanese) | โ
| โ
| โ
|
| [BERTweet](../en/model_doc/bertweet) | โ
| โ
| โ
|
| [BigBird](../en/model_doc/big_bird) | โ
| โ | โ
|
| [BigBird-Pegasus](../en/model_doc/bigbird_pegasus) | โ
| โ | โ |
| [BioGpt](../en/model_doc/biogpt) | โ
| โ | โ |
| [BiT](../en/model_doc/bit) | โ
| โ | โ |
| [Blenderbot](../en/model_doc/blenderbot) | โ
| โ
| โ
|
| [BlenderbotSmall](../en/model_doc/blenderbot-small) | โ
| โ
| โ
|
| [BLIP](../en/model_doc/blip) | โ
| โ
| โ |
| [BLIP-2](../en/model_doc/blip-2) | โ
| โ | โ |
| [BLOOM](../en/model_doc/bloom) | โ
| โ | โ
|
| [BORT](../en/model_doc/bort) | โ
| โ
| โ
|
| [BridgeTower](../en/model_doc/bridgetower) | โ
| โ | โ |
| [BROS](../en/model_doc/bros) | โ
| โ | โ |
| [ByT5](../en/model_doc/byt5) | โ
| โ
| โ
|
| [CamemBERT](../en/model_doc/camembert) | โ
| โ
| โ |
| [CANINE](../en/model_doc/canine) | โ
| โ | โ |
| [Chinese-CLIP](../en/model_doc/chinese_clip) | โ
| โ | โ |
| [CLAP](../en/model_doc/clap) | โ
| โ | โ |
| [CLIP](../en/model_doc/clip) | โ
| โ
| โ
|
| [CLIPSeg](../en/model_doc/clipseg) | โ
| โ | โ |
| [CLVP](../en/model_doc/clvp) | โ
| โ | โ |
| [CodeGen](../en/model_doc/codegen) | โ
| โ | โ |
| [CodeLlama](../en/model_doc/code_llama) | โ
| โ | โ
|
| [Conditional DETR](../en/model_doc/conditional_detr) | โ
| โ | โ |
| [ConvBERT](../en/model_doc/convbert) | โ
| โ
| โ |
| [ConvNeXT](../en/model_doc/convnext) | โ
| โ
| โ |
| [ConvNeXTV2](../en/model_doc/convnextv2) | โ
| โ
| โ |
| [CPM](../en/model_doc/cpm) | โ
| โ
| โ
|
| [CPM-Ant](../en/model_doc/cpmant) | โ
| โ | โ |
| [CTRL](../en/model_doc/ctrl) | โ
| โ
| โ |
| [CvT](../en/model_doc/cvt) | โ
| โ
| โ |
| [Data2VecAudio](../en/model_doc/data2vec) | โ
| โ | โ |
| [Data2VecText](../en/model_doc/data2vec) | โ
| โ | โ |
| [Data2VecVision](../en/model_doc/data2vec) | โ
| โ
| โ |
| [DeBERTa](../en/model_doc/deberta) | โ
| โ
| โ |
| [DeBERTa-v2](../en/model_doc/deberta-v2) | โ
| โ
| โ |
| [Decision Transformer](../en/model_doc/decision_transformer) | โ
| โ | โ |
| [Deformable DETR](../en/model_doc/deformable_detr) | โ
| โ | โ |
| [DeiT](../en/model_doc/deit) | โ
| โ
| โ |
| [DePlot](../en/model_doc/deplot) | โ
| โ | โ |
| [Depth Anything](../en/model_doc/depth_anything) | โ
| โ | โ |
| [DETA](../en/model_doc/deta) | โ
| โ | โ |
| [DETR](../en/model_doc/detr) | โ
| โ | โ |
| [DialoGPT](../en/model_doc/dialogpt) | โ
| โ
| โ
|
| [DiNAT](../en/model_doc/dinat) | โ
| โ | โ |
| [DINOv2](../en/model_doc/dinov2) | โ
| โ | โ |
| [DistilBERT](../en/model_doc/distilbert) | โ
| โ
| โ
|
| [DiT](../en/model_doc/dit) | โ
| โ | โ
|
| [DonutSwin](../en/model_doc/donut) | โ
| โ | โ |
| [DPR](../en/model_doc/dpr) | โ
| โ
| โ |
| [DPT](../en/model_doc/dpt) | โ
| โ | โ |
| [EfficientFormer](../en/model_doc/efficientformer) | โ
| โ
| โ |
| [EfficientNet](../en/model_doc/efficientnet) | โ
| โ | โ |
| [ELECTRA](../en/model_doc/electra) | โ
| โ
| โ
|
| [EnCodec](../en/model_doc/encodec) | โ
| โ | โ |
| [Encoder decoder](../en/model_doc/encoder-decoder) | โ
| โ
| โ
|
| [ERNIE](../en/model_doc/ernie) | โ
| โ | โ |
| [ErnieM](../en/model_doc/ernie_m) | โ
| โ | โ |
| [ESM](../en/model_doc/esm) | โ
| โ
| โ |
| [FairSeq Machine-Translation](../en/model_doc/fsmt) | โ
| โ | โ |
| [Falcon](../en/model_doc/falcon) | โ
| โ | โ |
| [FastSpeech2Conformer](../en/model_doc/fastspeech2_conformer) | โ
| โ | โ |
| [FLAN-T5](../en/model_doc/flan-t5) | โ
| โ
| โ
|
| [FLAN-UL2](../en/model_doc/flan-ul2) | โ
| โ
| โ
|
| [FlauBERT](../en/model_doc/flaubert) | โ
| โ
| โ |
| [FLAVA](../en/model_doc/flava) | โ
| โ | โ |
| [FNet](../en/model_doc/fnet) | โ
| โ | โ |
| [FocalNet](../en/model_doc/focalnet) | โ
| โ | โ |
| [Funnel Transformer](../en/model_doc/funnel) | โ
| โ
| โ |
| [Fuyu](../en/model_doc/fuyu) | โ
| โ | โ |
| [Gemma](../en/model_doc/gemma) | โ
| โ | โ
|
| [GIT](../en/model_doc/git) | โ
| โ | โ |
| [GLPN](../en/model_doc/glpn) | โ
| โ | โ |
| [GPT Neo](../en/model_doc/gpt_neo) | โ
| โ | โ
|
| [GPT NeoX](../en/model_doc/gpt_neox) | โ
| โ | โ |
| [GPT NeoX Japanese](../en/model_doc/gpt_neox_japanese) | โ
| โ | โ |
| [GPT-J](../en/model_doc/gptj) | โ
| โ
| โ
|
| [GPT-Sw3](../en/model_doc/gpt-sw3) | โ
| โ
| โ
|
| [GPTBigCode](../en/model_doc/gpt_bigcode) | โ
| โ | โ |
| [GPTSAN-japanese](../en/model_doc/gptsan-japanese) | โ
| โ | โ |
| [Graphormer](../en/model_doc/graphormer) | โ
| โ | โ |
| [GroupViT](../en/model_doc/groupvit) | โ
| โ
| โ |
| [HerBERT](../en/model_doc/herbert) | โ
| โ
| โ
|
| [Hubert](../en/model_doc/hubert) | โ
| โ
| โ |
| [I-BERT](../en/model_doc/ibert) | โ
| โ | โ |
| [IDEFICS](../en/model_doc/idefics) | โ
| โ | โ |
| [ImageGPT](../en/model_doc/imagegpt) | โ
| โ | โ |
| [Informer](../en/model_doc/informer) | โ
| โ | โ |
| [InstructBLIP](../en/model_doc/instructblip) | โ
| โ | โ |
| [Jukebox](../en/model_doc/jukebox) | โ
| โ | โ |
| [KOSMOS-2](../en/model_doc/kosmos-2) | โ
| โ | โ |
| [LayoutLM](../en/model_doc/layoutlm) | โ
| โ
| โ |
| [LayoutLMv2](../en/model_doc/layoutlmv2) | โ
| โ | โ |
| [LayoutLMv3](../en/model_doc/layoutlmv3) | โ
| โ
| โ |
| [LayoutXLM](../en/model_doc/layoutxlm) | โ
| โ | โ |
| [LED](../en/model_doc/led) | โ
| โ
| โ |
| [LeViT](../en/model_doc/levit) | โ
| โ | โ |
| [LiLT](../en/model_doc/lilt) | โ
| โ | โ |
| [LLaMA](../en/model_doc/llama) | โ
| โ | โ
|
| [Llama2](../en/model_doc/llama2) | โ
| โ | โ
|
| [LLaVa](../en/model_doc/llava) | โ
| โ | โ |
| [Longformer](../en/model_doc/longformer) | โ
| โ
| โ |
| [LongT5](../en/model_doc/longt5) | โ
| โ | โ
|
| [LUKE](../en/model_doc/luke) | โ
| โ | โ |
| [LXMERT](../en/model_doc/lxmert) | โ
| โ
| โ |
| [M-CTC-T](../en/model_doc/mctct) | โ
| โ | โ |
| [M2M100](../en/model_doc/m2m_100) | โ
| โ | โ |
| [MADLAD-400](../en/model_doc/madlad-400) | โ
| โ
| โ
|
| [Marian](../en/model_doc/marian) | โ
| โ
| โ
|
| [MarkupLM](../en/model_doc/markuplm) | โ
| โ | โ |
| [Mask2Former](../en/model_doc/mask2former) | โ
| โ | โ |
| [MaskFormer](../en/model_doc/maskformer) | โ
| โ | โ |
| [MatCha](../en/model_doc/matcha) | โ
| โ | โ |
| [mBART](../en/model_doc/mbart) | โ
| โ
| โ
|
| [mBART-50](../en/model_doc/mbart50) | โ
| โ
| โ
|
| [MEGA](../en/model_doc/mega) | โ
| โ | โ |
| [Megatron-BERT](../en/model_doc/megatron-bert) | โ
| โ | โ |
| [Megatron-GPT2](../en/model_doc/megatron_gpt2) | โ
| โ
| โ
|
| [MGP-STR](../en/model_doc/mgp-str) | โ
| โ | โ |
| [Mistral](../en/model_doc/mistral) | โ
| โ | โ
|
| [Mixtral](../en/model_doc/mixtral) | โ
| โ | โ |
| [mLUKE](../en/model_doc/mluke) | โ
| โ | โ |
| [MMS](../en/model_doc/mms) | โ
| โ
| โ
|
| [MobileBERT](../en/model_doc/mobilebert) | โ
| โ
| โ |
| [MobileNetV1](../en/model_doc/mobilenet_v1) | โ
| โ | โ |
| [MobileNetV2](../en/model_doc/mobilenet_v2) | โ
| โ | โ |
| [MobileViT](../en/model_doc/mobilevit) | โ
| โ
| โ |
| [MobileViTV2](../en/model_doc/mobilevitv2) | โ
| โ | โ |
| [MPNet](../en/model_doc/mpnet) | โ
| โ
| โ |
| [MPT](../en/model_doc/mpt) | โ
| โ | โ |
| [MRA](../en/model_doc/mra) | โ
| โ | โ |
| [MT5](../en/model_doc/mt5) | โ
| โ
| โ
|
| [MusicGen](../en/model_doc/musicgen) | โ
| โ | โ |
| [MVP](../en/model_doc/mvp) | โ
| โ | โ |
| [NAT](../en/model_doc/nat) | โ
| โ | โ |
| [Nezha](../en/model_doc/nezha) | โ
| โ | โ |
| [NLLB](../en/model_doc/nllb) | โ
| โ | โ |
| [NLLB-MOE](../en/model_doc/nllb-moe) | โ
| โ | โ |
| [Nougat](../en/model_doc/nougat) | โ
| โ
| โ
|
| [Nystrรถmformer](../en/model_doc/nystromformer) | โ
| โ | โ |
| [OneFormer](../en/model_doc/oneformer) | โ
| โ | โ |
| [OpenAI GPT](../en/model_doc/openai-gpt) | โ
| โ
| โ |
| [OpenAI GPT-2](../en/model_doc/gpt2) | โ
| โ
| โ
|
| [OpenLlama](../en/model_doc/open-llama) | โ
| โ | โ |
| [OPT](../en/model_doc/opt) | โ
| โ
| โ
|
| [OWL-ViT](../en/model_doc/owlvit) | โ
| โ | โ |
| [OWLv2](../en/model_doc/owlv2) | โ
| โ | โ |
| [PatchTSMixer](../en/model_doc/patchtsmixer) | โ
| โ | โ |
| [PatchTST](../en/model_doc/patchtst) | โ
| โ | โ |
| [Pegasus](../en/model_doc/pegasus) | โ
| โ
| โ
|
| [PEGASUS-X](../en/model_doc/pegasus_x) | โ
| โ | โ |
| [Perceiver](../en/model_doc/perceiver) | โ
| โ | โ |
| [Persimmon](../en/model_doc/persimmon) | โ
| โ | โ |
| [Phi](../en/model_doc/phi) | โ
| โ | โ |
| [PhoBERT](../en/model_doc/phobert) | โ
| โ
| โ
|
| [Pix2Struct](../en/model_doc/pix2struct) | โ
| โ | โ |
| [PLBart](../en/model_doc/plbart) | โ
| โ | โ |
| [PoolFormer](../en/model_doc/poolformer) | โ
| โ | โ |
| [Pop2Piano](../en/model_doc/pop2piano) | โ
| โ | โ |
| [ProphetNet](../en/model_doc/prophetnet) | โ
| โ | โ |
| [PVT](../en/model_doc/pvt) | โ
| โ | โ |
| [QDQBert](../en/model_doc/qdqbert) | โ
| โ | โ |
| [Qwen2](../en/model_doc/qwen2) | โ
| โ | โ |
| [RAG](../en/model_doc/rag) | โ
| โ
| โ |
| [REALM](../en/model_doc/realm) | โ
| โ | โ |
| [Reformer](../en/model_doc/reformer) | โ
| โ | โ |
| [RegNet](../en/model_doc/regnet) | โ
| โ
| โ
|
| [RemBERT](../en/model_doc/rembert) | โ
| โ
| โ |
| [ResNet](../en/model_doc/resnet) | โ
| โ
| โ
|
| [RetriBERT](../en/model_doc/retribert) | โ
| โ | โ |
| [RoBERTa](../en/model_doc/roberta) | โ
| โ
| โ
|
| [RoBERTa-PreLayerNorm](../en/model_doc/roberta-prelayernorm) | โ
| โ
| โ
|
| [RoCBert](../en/model_doc/roc_bert) | โ
| โ | โ |
| [RoFormer](../en/model_doc/roformer) | โ
| โ
| โ
|
| [RWKV](../en/model_doc/rwkv) | โ
| โ | โ |
| [SAM](../en/model_doc/sam) | โ
| โ
| โ |
| [SeamlessM4T](../en/model_doc/seamless_m4t) | โ
| โ | โ |
| [SeamlessM4Tv2](../en/model_doc/seamless_m4t_v2) | โ
| โ | โ |
| [SegFormer](../en/model_doc/segformer) | โ
| โ
| โ |
| [SegGPT](../en/model_doc/seggpt) | โ
| โ | โ |
| [SEW](../en/model_doc/sew) | โ
| โ | โ |
| [SEW-D](../en/model_doc/sew-d) | โ
| โ | โ |
| [SigLIP](../en/model_doc/siglip) | โ
| โ | โ |
| [Speech Encoder decoder](../en/model_doc/speech-encoder-decoder) | โ
| โ | โ
|
| [Speech2Text](../en/model_doc/speech_to_text) | โ
| โ
| โ |
| [SpeechT5](../en/model_doc/speecht5) | โ
| โ | โ |
| [Splinter](../en/model_doc/splinter) | โ
| โ | โ |
| [SqueezeBERT](../en/model_doc/squeezebert) | โ
| โ | โ |
| [StableLm](../en/model_doc/stablelm) | โ
| โ | โ |
| [Starcoder2](../en/model_doc/starcoder2) | โ
| โ | โ |
| [SwiftFormer](../en/model_doc/swiftformer) | โ
| โ | โ |
| [Swin Transformer](../en/model_doc/swin) | โ
| โ
| โ |
| [Swin Transformer V2](../en/model_doc/swinv2) | โ
| โ | โ |
| [Swin2SR](../en/model_doc/swin2sr) | โ
| โ | โ |
| [SwitchTransformers](../en/model_doc/switch_transformers) | โ
| โ | โ |
| [T5](../en/model_doc/t5) | โ
| โ
| โ
|
| [T5v1.1](../en/model_doc/t5v1.1) | โ
| โ
| โ
|
| [Table Transformer](../en/model_doc/table-transformer) | โ
| โ | โ |
| [TAPAS](../en/model_doc/tapas) | โ
| โ
| โ |
| [TAPEX](../en/model_doc/tapex) | โ
| โ
| โ
|
| [Time Series Transformer](../en/model_doc/time_series_transformer) | โ
| โ | โ |
| [TimeSformer](../en/model_doc/timesformer) | โ
| โ | โ |
| [Trajectory Transformer](../en/model_doc/trajectory_transformer) | โ
| โ | โ |
| [Transformer-XL](../en/model_doc/transfo-xl) | โ
| โ
| โ |
| [TrOCR](../en/model_doc/trocr) | โ
| โ | โ |
| [TVLT](../en/model_doc/tvlt) | โ
| โ | โ |
| [TVP](../en/model_doc/tvp) | โ
| โ | โ |
| [UL2](../en/model_doc/ul2) | โ
| โ
| โ
|
| [UMT5](../en/model_doc/umt5) | โ
| โ | โ |
| [UniSpeech](../en/model_doc/unispeech) | โ
| โ | โ |
| [UniSpeechSat](../en/model_doc/unispeech-sat) | โ
| โ | โ |
| [UnivNet](../en/model_doc/univnet) | โ
| โ | โ |
| [UPerNet](../en/model_doc/upernet) | โ
| โ | โ |
| [VAN](../en/model_doc/van) | โ
| โ | โ |
| [VideoMAE](../en/model_doc/videomae) | โ
| โ | โ |
| [ViLT](../en/model_doc/vilt) | โ
| โ | โ |
| [VipLlava](../en/model_doc/vipllava) | โ
| โ | โ |
| [Vision Encoder decoder](../en/model_doc/vision-encoder-decoder) | โ
| โ
| โ
|
| [VisionTextDualEncoder](../en/model_doc/vision-text-dual-encoder) | โ
| โ
| โ
|
| [VisualBERT](../en/model_doc/visual_bert) | โ
| โ | โ |
| [ViT](../en/model_doc/vit) | โ
| โ
| โ
|
| [ViT Hybrid](../en/model_doc/vit_hybrid) | โ
| โ | โ |
| [VitDet](../en/model_doc/vitdet) | โ
| โ | โ |
| [ViTMAE](../en/model_doc/vit_mae) | โ
| โ
| โ |
| [ViTMatte](../en/model_doc/vitmatte) | โ
| โ | โ |
| [ViTMSN](../en/model_doc/vit_msn) | โ
| โ | โ |
| [VITS](../en/model_doc/vits) | โ
| โ | โ |
| [ViViT](../en/model_doc/vivit) | โ
| โ | โ |
| [Wav2Vec2](../en/model_doc/wav2vec2) | โ
| โ
| โ
|
| [Wav2Vec2-BERT](../en/model_doc/wav2vec2-bert) | โ
| โ | โ |
| [Wav2Vec2-Conformer](../en/model_doc/wav2vec2-conformer) | โ
| โ | โ |
| [Wav2Vec2Phoneme](../en/model_doc/wav2vec2_phoneme) | โ
| โ
| โ
|
| [WavLM](../en/model_doc/wavlm) | โ
| โ | โ |
| [Whisper](../en/model_doc/whisper) | โ
| โ
| โ
|
| [X-CLIP](../en/model_doc/xclip) | โ
| โ | โ |
| [X-MOD](../en/model_doc/xmod) | โ
| โ | โ |
| [XGLM](../en/model_doc/xglm) | โ
| โ
| โ
|
| [XLM](../en/model_doc/xlm) | โ
| โ
| โ |
| [XLM-ProphetNet](../en/model_doc/xlm-prophetnet) | โ
| โ | โ |
| [XLM-RoBERTa](../en/model_doc/xlm-roberta) | โ
| โ
| โ
|
| [XLM-RoBERTa-XL](../en/model_doc/xlm-roberta-xl) | โ
| โ | โ |
| [XLM-V](../en/model_doc/xlm-v) | โ
| โ
| โ
|
| [XLNet](../en/model_doc/xlnet) | โ
| โ
| โ |
| [XLS-R](../en/model_doc/xls_r) | โ
| โ
| โ
|
| [XLSR-Wav2Vec2](../en/model_doc/xlsr_wav2vec2) | โ
| โ
| โ
|
| [YOLOS](../en/model_doc/yolos) | โ
| โ | โ |
| [YOSO](../en/model_doc/yoso) | โ
| โ | โ |