ValueFX9507
/

Tifa-Deepsex-14b-CoT-Q8

Reinforcement Learning

incremental-pretraining

Inference Endpoints

Model card Files Files and versions Community

ValueFX9507 commited on 7 days ago

Commit

a6532c6

·

verified ·

1 Parent(s): 4d8d709

Update README.md

Files changed (1) hide show

README.md +2 -1

README.md CHANGED Viewed

@@ -35,12 +35,13 @@ license: apache-2.0
 2. **消除中英混杂**：原始模型蒸馏数据大多数英文为主，经过微调后基本消除中英混杂现象。
 3. **特定词汇增加**：进行“具有深度”的角色扮演对话时，显著增加了相关词汇量，解决原始权重预训练数据不足问题。
 4. **更少拒绝**：减少了拒绝现象，但因为是企业训练，安全性还是稍作保留。
 ## 模型亮点
 🔥 **四阶段进化架构**：
 1. **增量预训练**：注入0.4T Token 小说，使用16k上下文训练，增强文本连贯性（70%爱情动作小说）
 2. **Tifa-SFT**：融合全球Top4角色扮演模型Tifa的10万条高质量数据
-3. **CoT恢复训练**：采用Deepseek-32B/685B数据重建推理能力
 4. **RL强化**：保留发散性思维标签的同时优化生成质量
 💡 **工程创新**：

 2. **消除中英混杂**：原始模型蒸馏数据大多数英文为主，经过微调后基本消除中英混杂现象。
 3. **特定词汇增加**：进行“具有深度”的角色扮演对话时，显著增加了相关词汇量，解决原始权重预训练数据不足问题。
 4. **更少拒绝**：减少了拒绝现象，但因为是企业训练，安全性还是稍作保留。
+5. **更像满血**：使用671B全量模型数据康复训练，文笔提升不死板。
 ## 模型亮点
 🔥 **四阶段进化架构**：
 1. **增量预训练**：注入0.4T Token 小说，使用16k上下文训练，增强文本连贯性（70%爱情动作小说）
 2. **Tifa-SFT**：融合全球Top4角色扮演模型Tifa的10万条高质量数据
+3. **CoT恢复训练**：采用Deepseek-32B/671B数据重建推理能力
 4. **RL强化**：保留发散性思维标签的同时优化生成质量
 💡 **工程创新**：