Commit
·
df179df
1
Parent(s):
6328377
init model card
Browse files
README.md
ADDED
@@ -0,0 +1,24 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
language:
|
3 |
+
- zh
|
4 |
+
license: cc-by-nc-4.0
|
5 |
+
base_model: 01-ai/Yi-6B
|
6 |
+
datasets:
|
7 |
+
- nenekochan/yoruno-vn
|
8 |
+
tags:
|
9 |
+
- not-for-all-audiences
|
10 |
+
inference: false
|
11 |
+
---
|
12 |
+
|
13 |
+
## 训练细节
|
14 |
+
|
15 |
+
- [Firefly](https://github.com/yangjianxin1/Firefly) QLoRA
|
16 |
+
- 基座:Yi-6B
|
17 |
+
- 数据:341千中文字符(103 个对话串),来自前四作中去掉了长篇描写后的内容
|
18 |
+
- 时长:60 steps, ~9.2 epochs
|
19 |
+
|
20 |
+
## 技术决策
|
21 |
+
|
22 |
+
- 少量的数据:LIMA: Less Is More for Alignment 的宗旨在于,模型的生成内容的质量几乎完全由基座模型的预训练决定,微调训练只会影响生成内容的风格,而且只需要极少量但高质量的训练数据就可以达到效果。
|
23 |
+
- Yi-6B 为基座:在微调训练的早期测试阶段,我曾以 ChatGLM3-6B-Base 作为基座模型。后来决定使用 Yi-6B 主要是因为它的 Llama2 架构在现今依旧是主流实现,部署选择要多得多(特别是 GGUF 生态)。最终成品比较时,基于 Yi-6B 的比基于 ChatGLM3-6B-Base 对文风的还原度要高一些,不过在创造力上略逊一筹。
|
24 |
+
- Firefly 微调框架:他们的训练方法是为多轮对话设计的,而超长上下文正是我的训练目标。`yoruno-vn` 数据集的对话串平均长度是现今大多问答数据集的数倍。对于未来的写作模型,我会认真研究如何制作有真正有效 32k 上下文的模型。
|