Update README.md
Browse files
README.md
CHANGED
@@ -64,6 +64,13 @@ content: msg.content.replace(/<think>[\s\S]*?<\/think>/gi, '')
|
|
64 |
- 随机截断训练增强鲁棒性
|
65 |
- 8×H20 GPU全量微调
|
66 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
67 |
## 模型详情
|
68 |
| 属性 | 规格 |
|
69 |
|-------|------|
|
@@ -91,7 +98,6 @@ content: msg.content.replace(/<think>[\s\S]*?<\/think>/gi, '')
|
|
91 |
2. 角色扮演数据需遵循[Tifa使用协议](https://leftnorth.com/terms.html)
|
92 |
3. 生成内容需符合当地法律法规
|
93 |
|
94 |
-
|
95 |
## 💡 使用建议
|
96 |
**最佳实践**:
|
97 |
```python
|
|
|
64 |
- 随机截断训练增强鲁棒性
|
65 |
- 8×H20 GPU全量微调
|
66 |
|
67 |
+
💡 **启示与后续**:
|
68 |
+
- 我们在测试中发现,满血R1在角色扮演中输出内容比较发散,随机,导致此模型有相同倾向,对于角色扮演的影响还在研究中
|
69 |
+
- 输入内容相近的话语会导致向量重叠,然后重复输出,如“继续”,“还有”等无明显指向性话语
|
70 |
+
- 思维内容与正文关联性学习了满血R1的特点,发散比较严重,可能会有割裂感
|
71 |
+
- 针对以上问题,我们正在编写新的RL算法,初步计划剔除部分满血R1的内容,同时通过强化学习解决重复
|
72 |
+
- 总结:请期待V2版本,很快会与大家见面!
|
73 |
+
|
74 |
## 模型详情
|
75 |
| 属性 | 规格 |
|
76 |
|-------|------|
|
|
|
98 |
2. 角色扮演数据需遵循[Tifa使用协议](https://leftnorth.com/terms.html)
|
99 |
3. 生成内容需符合当地法律法规
|
100 |
|
|
|
101 |
## 💡 使用建议
|
102 |
**最佳实践**:
|
103 |
```python
|