gqszhanshijin
/

Steel-LLM

Model card Files Files and versions Community

gqszhanshijin commited on Oct 29, 2024

Commit

9639d1c

·

1 Parent(s): 95945c7

update readme

Files changed (1) hide show

README.md +10 -3

README.md CHANGED Viewed

@@ -9,12 +9,19 @@ license: apache-2.0
 ## 👋 介绍
-Steel-LLM是一个从零开始预训练中文大模型的项目。我们的目标是使用1T+的数据预训练一个1B左右参数量的中文LLM，对标TinyLlama。项目持续更新，维持3个月+。我们会分享数据收集、数据处理、预训练框架选择、模型设计等全过程，并开源全部代码。让每个人在有8~几十张卡的情况下都能复现我们的工作。
 <p align="center">
         🐱 <a href="https://github.com/zhanshijinwat/Steel-LLM">Github</a>&nbsp&nbsp
         &nbsp&nbsp 📑 <a href="https://www.zhihu.com/people/zhan-shi-jin-27">Blog</a>
 "Steel(钢)"取名灵感来源于华北平原一只优秀的乐队“万能青年旅店（万青）”。乐队在做一专的时候条件有限，自称是在“土法炼钢”，但却是一张神专。我们训练LLM的条件同样有限，但也希望能炼出好“钢”来。
-## 🤖doing
-[2024/9/2]正在进行模型微调以及评估的工作...

 ## 👋 介绍
+Steel-LLM是个人发起的从零开始预训练中文大模型的项目。我们使用了1T+的数据预训练一个1B左右参数量的中文LLM，耗时8个月。我们分享了数据收集、数据处理、预训练框架修改、模型设计、模型微调等全过程，并开源全部代码。让每个人在有8~几十张卡的情况下都能复现我们的工作。得益于开源中文数据，Steel LLM在中文benchmark上表现优于一些大几倍的机构发布的LLM，最终在ceval达到了38分，cmmlu达到了33分。
 <p align="center">
         🐱 <a href="https://github.com/zhanshijinwat/Steel-LLM">Github</a>&nbsp&nbsp
         &nbsp&nbsp 📑 <a href="https://www.zhihu.com/people/zhan-shi-jin-27">Blog</a>
 "Steel(钢)"取名灵感来源于华北平原一只优秀的乐队“万能青年旅店（万青）”。乐队在做一专的时候条件有限，自称是在“土法炼钢”，但却是一张神专。我们训练LLM的条件同样有限，但也希望能炼出好“钢”来。
+## 🤖进度
+[2024/10/26] 发布第一版微调模型，在ceval达到了38分，cmmlu达到了33分。微调内容相关博客：https://mp.weixin.qq.com/s/KK0G0spNw0D9rPUESkHMew
+[2024/10/26]历史文章：
+- 预训练数据收集与处理:https://mp.weixin.qq.com/s/yqmtHLuuNV9075qHgzhcPw
+- 预训练代码讲解改进与测试:https://mp.weixin.qq.com/s/KPRir6bK3MZZ-vMFTfhUQQ
+- 模型设计:https://mp.weixin.qq.com/s/JaZyf1jOEOtNDCcFqSj8TQ
+[2024/9/2]发布预训练过程中的checkpoint