ValueFX9507
/

Tifa-Deepsex-14b-CoT-Q8

Reinforcement Learning

incremental-pretraining

Not-For-All-Audiences

Model card Files Files and versions Community

ValueFX9507 commited on Feb 5

Commit

4b99260

·

verified ·

1 Parent(s): 8ce946b

Update README.md

Files changed (1) hide show

README.md +7 -1

README.md CHANGED Viewed

@@ -64,6 +64,13 @@ content: msg.content.replace(/<think>[\s\S]*?<\/think>/gi, '')
 - 随机截断训练增强鲁棒性
 - 8×H20 GPU全量微调
 ## 模型详情
 | 属性 | 规格 |
 |-------|------|
@@ -91,7 +98,6 @@ content: msg.content.replace(/<think>[\s\S]*?<\/think>/gi, '')
 2. 角色扮演数据需遵循[Tifa使用协议](https://leftnorth.com/terms.html)
 3. 生成内容需符合当地法律法规
 ## 💡 使用建议
 **最佳实践**：
 ```python

 - 随机截断训练增强鲁棒性
 - 8×H20 GPU全量微调
+💡 **启示与后续**：
+- 我们在测试中发现，满血R1在角色扮演中输出内容比较发散，随机，导致此模型有相同倾向，对于角色扮演的影响还在研究中
+- 输入内容相近的话语会导致向量重叠，然后重复输出，如“继续”，“还有”等无明显指向性话语
+- 思维内容与正文关联性学习了满血R1的特点，发散比较严重，可能会有割裂感
+- 针对以上问题，我们正在编写新的RL算法，初步计划剔除部分满血R1的内容，同时通过强化学习解决重复
+- 总结：请期待V2版本，很快会与大家见面！
 ## 模型详情
 | 属性 | 规格 |
 |-------|------|
 2. 角色扮演数据需遵循[Tifa使用协议](https://leftnorth.com/terms.html)
 3. 生成内容需符合当地法律法规
 ## 💡 使用建议
 **最佳实践**：
 ```python