nenekochan commited on
Commit
df179df
·
1 Parent(s): 6328377

init model card

Browse files
Files changed (1) hide show
  1. README.md +24 -0
README.md ADDED
@@ -0,0 +1,24 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - zh
4
+ license: cc-by-nc-4.0
5
+ base_model: 01-ai/Yi-6B
6
+ datasets:
7
+ - nenekochan/yoruno-vn
8
+ tags:
9
+ - not-for-all-audiences
10
+ inference: false
11
+ ---
12
+
13
+ ## 训练细节
14
+
15
+ - [Firefly](https://github.com/yangjianxin1/Firefly) QLoRA
16
+ - 基座:Yi-6B
17
+ - 数据:341千中文字符(103 个对话串),来自前四作中去掉了长篇描写后的内容
18
+ - 时长:60 steps, ~9.2 epochs
19
+
20
+ ## 技术决策
21
+
22
+ - 少量的数据:LIMA: Less Is More for Alignment 的宗旨在于,模型的生成内容的质量几乎完全由基座模型的预训练决定,微调训练只会影响生成内容的风格,而且只需要极少量但高质量的训练数据就可以达到效果。
23
+ - Yi-6B 为基座:在微调训练的早期测试阶段,我曾以 ChatGLM3-6B-Base 作为基座模型。后来决定使用 Yi-6B 主要是因为它的 Llama2 架构在现今依旧是主流实现,部署选择要多得多(特别是 GGUF 生态)。最终成品比较时,基于 Yi-6B 的比基于 ChatGLM3-6B-Base 对文风的还原度要高一些,不过在创造力上略逊一筹。
24
+ - Firefly 微调框架:他们的训练方法是为多轮对话设计的,而超长上下文正是我的训练目标。`yoruno-vn` 数据集的对话串平均长度是现今大多问答数据集的数倍。对于未来的写作模型,我会认真研究如何制作有真正有效 32k 上下文的模型。