pszemraj
/

nanoT5-mid-65kBPE-2048

Text2Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

pszemraj commited on Jul 29, 2024

Commit

9503ceb

·

verified ·

1 Parent(s): b99a8a2

Update README.md

Files changed (1) hide show

README.md +10 -2

README.md CHANGED Viewed

@@ -2,13 +2,21 @@
 license: apache-2.0
 datasets:
 - allenai/c4
 ---
 # nanoT5-mid-65kBPE-2048
 A "mid" size T5 model pretrained on c4:
 - trained @ context length 2048
 - 16 layers, hidden size 1024, FF 3072. SiLU activations
-- pretrained on `allenai/c4` for 65k steps
-- uses an [adapted claude3 tokenizer](https://huggingface.co/BEE-spoke-data/claude-tokenizer-forT5); vocab size 65k

 license: apache-2.0
 datasets:
 - allenai/c4
+language:
+- en
 ---
 # nanoT5-mid-65kBPE-2048
+> [!NOTE]
+> This is a "raw" pretrained model intended to be fine-tuned on downstream tasks
 A "mid" size T5 model pretrained on c4:
 - trained @ context length 2048
 - 16 layers, hidden size 1024, FF 3072. SiLU activations
+- pretrained on `allenai/c4` (`en` subset) for 65k steps
+- uses an [adapted claude3 tokenizer](https://huggingface.co/BEE-spoke-data/claude-tokenizer-forT5); vocab size 65k
+More details and logs under [checkpoints/](https://huggingface.co/pszemraj/nanoT5-mid-65kBPE-2048/tree/main/checkpoints)