Update README.md
Browse files
README.md
CHANGED
@@ -1,3 +1,112 @@
|
|
1 |
-
---
|
2 |
-
|
3 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
base_model:
|
3 |
+
- deepseek-ai/deepseek-r1-14b
|
4 |
+
language:
|
5 |
+
- zh
|
6 |
+
- en
|
7 |
+
library_name: transformers
|
8 |
+
tags:
|
9 |
+
- incremental-pretraining
|
10 |
+
- sft
|
11 |
+
- reinforcement-learning
|
12 |
+
- roleplay
|
13 |
+
- cot
|
14 |
+
- sex
|
15 |
+
license: apache-2.0
|
16 |
+
---
|
17 |
+
# Tifa-Deepseek-14b-CoT
|
18 |
+
|
19 |
+
- **HF Model**: [ValueFX9507/Tifa-Deepsex-14b-CoT](https://huggingface.co/ValueFX9507/Tifa-Deepsex-14b-CoT)
|
20 |
+
- **GGUF**: [F16](https://huggingface.co/ValueFX9507/Tifa-Deepsex-14b-CoT)[Q4](https://huggingface.co/ValueFX9507/Tifa-Deepsex-14b-CoT-Q4)(更多量化版本持续更新中)
|
21 |
+
- **Demo APK**: [点击下载](http://app.visionsic.com/download/projectchat.apk)
|
22 |
+
|
23 |
+
本模型基于Deepseek-R1-14B进行深度优化,通过三重训练策略显著增强角色扮演、小说文本生成与思维链(CoT)能力。特别适合需要长程上下文关联的创作场景。
|
24 |
+
|
25 |
+
|
26 |
+
## 示例(因COT模型特点,上下文不连贯时可以使用Demo软件中的故事模式)
|
27 |
+
![2.jpg](https://cdn-uploads.huggingface.co/production/uploads/650762d0eac45ee2e420a38b/-80ha-J8PpwSaiyHgr1k2.jpeg)
|
28 |
+
|
29 |
+
## 目标
|
30 |
+
针对原版Deepseek-R1-14B在长文本生成连贯性不足和角色扮演能力薄弱的核心缺陷(主要由于训练数据中小说类语料占比过低),本模型通过多阶段优化提升其角色扮演能力。
|
31 |
+
|
32 |
+
## 实现
|
33 |
+
🔥 **经过训练后**:
|
34 |
+
1. **显著提高上下文关联**:减少答非所问情况。
|
35 |
+
2. **消除中英混杂**:原始模型蒸馏数据大多数英文为主,经过微调后基本消除中英混杂现象。
|
36 |
+
3. **特定词汇增加**:进行“具有深度”的角色扮演对话时,显著增加了相关词汇量,解决原始权重预训练数据不足问题。
|
37 |
+
4. **更少拒绝**:减少了拒绝现象,但因为是企业训练,安全性还是稍作保留。
|
38 |
+
|
39 |
+
## 模型亮点
|
40 |
+
🔥 **四阶段进化架构**:
|
41 |
+
1. **增量预训练**:注入0.4T Token 小说,使用16k上下文训练,增强文本连贯性(70%爱情动作小说)
|
42 |
+
2. **Tifa-SFT**:融合全球Top4角色扮演模型Tifa的10万条高质量数据
|
43 |
+
3. **CoT恢复训练**:采用Deepseek-32B/685B数据重建推理能力
|
44 |
+
4. **RL强化**:保留发散性思维标签的同时优化生成质量
|
45 |
+
|
46 |
+
💡 **工程创新**:
|
47 |
+
- 16k超长上下文训练
|
48 |
+
- 随机截断训练增强鲁棒性
|
49 |
+
- 8×H20 GPU全量微调
|
50 |
+
|
51 |
+
## 模型详情
|
52 |
+
| 属性 | 规格 |
|
53 |
+
|-------|------|
|
54 |
+
| 基础架构 | Deepseek-R1-14B |
|
55 |
+
| 最大上下文 | 128k |
|
56 |
+
| 训练数据 | 0.4T小说 + 10万条SFT + Deepseek混合数据 |
|
57 |
+
| 训练设备 | 8×H20 GPU集群 |
|
58 |
+
| 量化支持 | GGUF(全系列量化计划中) |
|
59 |
+
|
60 |
+
## 使用场景
|
61 |
+
✅ **推荐场景**:
|
62 |
+
- 角色扮演对话
|
63 |
+
- 需要发散性思维的创意写作
|
64 |
+
- 复杂逻辑的思维链(CoT)推理
|
65 |
+
- 基于上下文的深度角色交互
|
66 |
+
|
67 |
+
❌ **局限场景**:
|
68 |
+
- 数学计算与代码生成
|
69 |
+
- 短文本即时问答
|
70 |
+
- 需要严格事实性的场景
|
71 |
+
|
72 |
+
## 注意事项
|
73 |
+
⚠️ 本模型使用数据包含小说版权内容及Tifa模型衍生数据,请遵守:
|
74 |
+
1. 明面上禁止商用(商用别提我名字)
|
75 |
+
2. 角色扮演数据需遵循[Tifa使用协议](https://leftnorth.com/terms.html)
|
76 |
+
3. 生成内容需符合当地法律法规
|
77 |
+
|
78 |
+
|
79 |
+
## 💡 使用建议
|
80 |
+
**最佳实践**:
|
81 |
+
```python
|
82 |
+
# 启用角色扮演模式
|
83 |
+
prompt = """<system>进入Tifa角色引擎...</system>
|
84 |
+
<user>你现在是流浪武士楚夜,正站在长安城屋顶上</user>
|
85 |
+
<think>
|
86 |
+
需要体现人物孤傲的气质
|
87 |
+
加入武侠特有的环境描写
|
88 |
+
保持对话的冷峻风格
|
89 |
+
</think>
|
90 |
+
<楚夜>"""
|
91 |
+
```
|
92 |
+
|
93 |
+
**参数推荐**:
|
94 |
+
```python
|
95 |
+
generation_config = {
|
96 |
+
"temperature": 0.8,
|
97 |
+
"top_p": 0.8,
|
98 |
+
"repetition_penalty": 1.17,
|
99 |
+
"max_new_tokens": 1536,
|
100 |
+
"do_sample": True
|
101 |
+
}
|
102 |
+
```
|
103 |
+
|
104 |
+
## 致谢
|
105 |
+
- Deepseek系列模型提供的强大基座
|
106 |
+
- Tifa角色扮演模型的创新架构
|
107 |
+
- HuggingFace社区的量化工具支持
|
108 |
+
|
109 |
+
|
110 |
+
---
|
111 |
+
license: apache-2.0
|
112 |
+
---
|