ValueFX9507 commited on
Commit
a6532c6
·
verified ·
1 Parent(s): 4d8d709

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +2 -1
README.md CHANGED
@@ -35,12 +35,13 @@ license: apache-2.0
35
  2. **消除中英混杂**:原始模型蒸馏数据大多数英文为主,经过微调后基本消除中英混杂现象。
36
  3. **特定词汇增加**:进行“具有深度”的角色扮演对话时,显著增加了相关词汇量,解决原始权重预训练数据不足问题。
37
  4. **更少拒绝**:减少了拒绝现象,但因为是企业训练,安全性还是稍作保留。
 
38
 
39
  ## 模型亮点
40
  🔥 **四阶段进化架构**:
41
  1. **增量预训练**:注入0.4T Token 小说,使用16k上下文训练,增强文本连贯性(70%爱情动作小说)
42
  2. **Tifa-SFT**:融合全球Top4角色扮演模型Tifa的10万条高质量数据
43
- 3. **CoT恢复训练**:采用Deepseek-32B/685B数据重建推理能力
44
  4. **RL强化**:保留发散性思维标签的同时优化生成质量
45
 
46
  💡 **工程创新**:
 
35
  2. **消除中英混杂**:原始模型蒸馏数据大多数英文为主,经过微调后基本消除中英混杂现象。
36
  3. **特定词汇增加**:进行“具有深度”的角色扮演对话时,显著增加了相关词汇量,解决原始权重预训练数据不足问题。
37
  4. **更少拒绝**:减少了拒绝现象,但因为是企业训练,安全性还是稍作保留。
38
+ 5. **更像满血**:使用671B全量模型数据康复训练,文笔提升不死板。
39
 
40
  ## 模型亮点
41
  🔥 **四阶段进化架构**:
42
  1. **增量预训练**:注入0.4T Token 小说,使用16k上下文训练,增强文本连贯性(70%爱情动作小说)
43
  2. **Tifa-SFT**:融合全球Top4角色扮演模型Tifa的10万条高质量数据
44
+ 3. **CoT恢复训练**:采用Deepseek-32B/671B数据重建推理能力
45
  4. **RL强化**:保留发散性思维标签的同时优化生成质量
46
 
47
  💡 **工程创新**: