Commit
·
9639d1c
1
Parent(s):
95945c7
update readme
Browse files
README.md
CHANGED
@@ -9,12 +9,19 @@ license: apache-2.0
|
|
9 |
|
10 |
|
11 |
## 👋 介绍
|
12 |
-
Steel-LLM
|
13 |
<p align="center">
|
14 |
🐱 <a href="https://github.com/zhanshijinwat/Steel-LLM">Github</a>  
|
15 |
   📑 <a href="https://www.zhihu.com/people/zhan-shi-jin-27">Blog</a>
|
16 |
|
17 |
"Steel(钢)"取名灵感来源于华北平原一只优秀的乐队“万能青年旅店(万青)”。乐队在做一专的时候条件有限,自称是在“土法炼钢”,但却是一张神专。我们训练LLM的条件同样有限,但也希望能炼出好“钢”来。
|
18 |
|
19 |
-
##
|
20 |
-
[2024/
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
9 |
|
10 |
|
11 |
## 👋 介绍
|
12 |
+
Steel-LLM是个人发起的从零开始预训练中文大模型的项目。我们使用了1T+的数据预训练一个1B左右参数量的中文LLM,耗时8个月。我们分享了数据收集、数据处理、预训练框架修改、模型设计、模型微调等全过程,并开源全部代码。让每个人在有8~几十张卡的情况下都能复现我们的工作。得益于开源中文数据,Steel LLM在中文benchmark上表现优于一些大几倍的机构发布的LLM,最终在ceval达到了38分,cmmlu达到了33分。
|
13 |
<p align="center">
|
14 |
🐱 <a href="https://github.com/zhanshijinwat/Steel-LLM">Github</a>  
|
15 |
   📑 <a href="https://www.zhihu.com/people/zhan-shi-jin-27">Blog</a>
|
16 |
|
17 |
"Steel(钢)"取名灵感来源于华北平原一只优秀的乐队“万能青年旅店(万青)”。乐队在做一专的时候条件有限,自称是在“土法炼钢”,但却是一张神专。我们训练LLM的条件同样有限,但也希望能炼出好“钢”来。
|
18 |
|
19 |
+
## 🤖进度
|
20 |
+
[2024/10/26] 发布第一版微调模型,在ceval达到了38分,cmmlu达到了33分。微调内容相关博客:https://mp.weixin.qq.com/s/KK0G0spNw0D9rPUESkHMew
|
21 |
+
[2024/10/26]历史文章:
|
22 |
+
|
23 |
+
- 预训练数据收集与处理:https://mp.weixin.qq.com/s/yqmtHLuuNV9075qHgzhcPw
|
24 |
+
- 预训练代码讲解改进与测试:https://mp.weixin.qq.com/s/KPRir6bK3MZZ-vMFTfhUQQ
|
25 |
+
- 模型设计:https://mp.weixin.qq.com/s/JaZyf1jOEOtNDCcFqSj8TQ
|
26 |
+
|
27 |
+
[2024/9/2]发布预训练过程中的checkpoint
|