kenhktsui
/

llm-data-textbook-quality-fasttext-classifier-v1

Text Classification

Model card Files Files and versions Community

kenhktsui commited on Apr 28, 2024

Commit

e6f7a2f

·

verified ·

1 Parent(s): 7176d3f

Update README.md

Files changed (1) hide show

README.md +7 -3

README.md CHANGED Viewed

@@ -4,8 +4,8 @@ datasets:
 - kenhktsui/llm-data-quality
 ---
 # llm-data-textbook-quality-fasttext-classifer-v1
-Model is built on fasttext. It is an optimisation of [llm-data-textbook-quality-classifer-v1](https://huggingface.co/kenhktsui/llm-data-textbook-quality-classifer-v1).
-It can classify more than 2000 examples per second in CPU.
 This model can classify if a text is of textbook quality data. It can be used as a filter for data curation when training a LLM.
 Please note textbook quality is a subset of high quality.
@@ -54,4 +54,8 @@ predict(["Hi"])
 |[BEE-spoke-data/fineweb-100k_en-med](https://huggingface.co/datasets/BEE-spoke-data/fineweb-100k_en-med)| First 10,000| 0.4760|
 |[pszemraj/simple_wikipedia_LM](https://huggingface.co/datasets/pszemraj/simple_wikipedia_LM) | First 10,000| 0.4670|
 |[mattymchen/refinedweb-3m](https://huggingface.co/datasets/mattymchen/refinedweb-3m)| First 10,000| 0.2916|
-|[JeanKaddour/minipile](https://huggingface.co/datasets/JeanKaddour/minipile)| First 10,000 | 0.2525|

 - kenhktsui/llm-data-quality
 ---
 # llm-data-textbook-quality-fasttext-classifer-v1
+Model is built on fasttext. It is an optimised version of [llm-data-textbook-quality-classifer-v1](https://huggingface.co/kenhktsui/llm-data-textbook-quality-classifer-v1).
+Not just it results in a higher F1 score, but also it can classify more than 2000 examples per second in CPU.
 This model can classify if a text is of textbook quality data. It can be used as a filter for data curation when training a LLM.
 Please note textbook quality is a subset of high quality.
 |[BEE-spoke-data/fineweb-100k_en-med](https://huggingface.co/datasets/BEE-spoke-data/fineweb-100k_en-med)| First 10,000| 0.4760|
 |[pszemraj/simple_wikipedia_LM](https://huggingface.co/datasets/pszemraj/simple_wikipedia_LM) | First 10,000| 0.4670|
 |[mattymchen/refinedweb-3m](https://huggingface.co/datasets/mattymchen/refinedweb-3m)| First 10,000| 0.2916|
+|[JeanKaddour/minipile](https://huggingface.co/datasets/JeanKaddour/minipile)| First 10,000 | 0.2525|
+Average Quality Score is defined as the average probility output of HIGH_QUALITY.
+The classifier aligns with the expectation. Textbook category scores the highest, reflecting the effectiveness of this model. Wikipedia scores lower because it is not textbook after all. Web scores the lowest.