infly
/

OpenCoder-1.5B-Instruct

Text Generation

text-generation-inference

Model card Files Files and versions Community

Simingh commited on Nov 11, 2024

Commit

ca83a2c

·

verified ·

1 Parent(s): 282d166

Update README.md

Files changed (1) hide show

README.md +11 -2

README.md CHANGED Viewed

@@ -48,10 +48,19 @@ datasets:
 ## 3. Datasets
 |         Dataset       | Num |                                Download                                 |
 |:---------------------:|:---------------:|:-----------------------------------------------------------------------:|
-| OpenCoder-SFT-Stage1  |      4.21 M       | 🤗 [HuggingFace](https://huggingface.co/datasets/OpenCoder-LLM/opencoder-sft-stage1)  |
-| OpenCoder-SFT-Stage2  |      375 K      | 🤗 [HuggingFace](https://huggingface.co/datasets/OpenCoder-LLM/opencoder-sft-stage2)  |

 ## 3. Datasets
+### Pre-training
+|         Dataset       | Size |                                Download                                 |
+|:---------------------:|:---------------:|:-----------------------------------------------------------------------:|
+| fineweb-code-corpus  |      148 GB       | 🤗 [HuggingFace](https://huggingface.co/datasets/OpenCoder-LLM/fineweb-code-corpus)  |
+| fineweb-math-corpus  |       10 GB    | 🤗 [HuggingFace](https://huggingface.co/datasets/OpenCoder-LLM/fineweb-math-corpus)  |
+### Post-training
 |         Dataset       | Num |                                Download                                 |
 |:---------------------:|:---------------:|:-----------------------------------------------------------------------:|
+| opencoder-sft-stage1  |      4.21 M       | 🤗 [HuggingFace](https://huggingface.co/datasets/OpenCoder-LLM/opencoder-sft-stage1)  |
+| opencoder-sft-stage2  |      375 K      | 🤗 [HuggingFace](https://huggingface.co/datasets/OpenCoder-LLM/opencoder-sft-stage2)  |