ValueFX9507 commited on
Commit
4b99260
·
verified ·
1 Parent(s): 8ce946b

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +7 -1
README.md CHANGED
@@ -64,6 +64,13 @@ content: msg.content.replace(/<think>[\s\S]*?<\/think>/gi, '')
64
  - 随机截断训练增强鲁棒性
65
  - 8×H20 GPU全量微调
66
 
 
 
 
 
 
 
 
67
  ## 模型详情
68
  | 属性 | 规格 |
69
  |-------|------|
@@ -91,7 +98,6 @@ content: msg.content.replace(/<think>[\s\S]*?<\/think>/gi, '')
91
  2. 角色扮演数据需遵循[Tifa使用协议](https://leftnorth.com/terms.html)
92
  3. 生成内容需符合当地法律法规
93
 
94
-
95
  ## 💡 使用建议
96
  **最佳实践**:
97
  ```python
 
64
  - 随机截断训练增强鲁棒性
65
  - 8×H20 GPU全量微调
66
 
67
+ 💡 **启示与后续**:
68
+ - 我们在测试中发现,满血R1在角色扮演中输出内容比较发散,随机,导致此模型有相同倾向,对于角色扮演的影响还在研究中
69
+ - 输入内容相近的话语会导致向量重叠,然后重复输出,如“继续”,“还有”等无明显指向性话语
70
+ - 思维内容与正文关联性学习了满血R1的特点,发散比较严重,可能会有割裂感
71
+ - 针对以上问题,我们正在编写新的RL算法,初步计划剔除部分满血R1的内容,同时通过强化学习解决重复
72
+ - 总结:请期待V2版本,很快会与大家见面!
73
+
74
  ## 模型详情
75
  | 属性 | 规格 |
76
  |-------|------|
 
98
  2. 角色扮演数据需遵循[Tifa使用协议](https://leftnorth.com/terms.html)
99
  3. 生成内容需符合当地法律法规
100
 
 
101
  ## 💡 使用建议
102
  **最佳实践**:
103
  ```python