ValueFX9507 commited on
Commit
7c9a383
·
verified ·
1 Parent(s): be5287a

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +32 -23
README.md CHANGED
@@ -22,40 +22,49 @@ license: apache-2.0
22
 
23
  本模型基于Deepseek-R1-14B进行深度优化,借助Tifa_220B生成的数据集通过三重训练策略显著增强角色扮演、小说文本生成与思维链(CoT)能力。特别适合需要长程上下文关联的创作场景。
24
 
25
-
26
  ## 版本介绍:
27
  - **Tifa-Deepsex-14b-CoT**
28
- 验证模型,测试RL奖励算法对于角色扮演数据的影响,该版本为初版,输出灵活但是不受控制,仅做研究使用。
 
29
 
30
  - **Tifa-Deepsex-14b-CoT-Chat**
31
- 采用标准数据训练,使用成熟RL策略,附加防重复强化学习,适合正常使用,输出文本质量正常,少数情况下思维发散。
32
- -增量训练0.4T小说内容
33
- -100K由TifaMax生成的SFT数据,10K由DeepseekR1生成的SFT数据,2K高质量人工数据
34
- -30K由TifaMax生成的DPO强化学习数据,用于防止重复,增强上下文关联,提升政治安全性
 
 
 
 
35
 
36
  - **Tifa-Deepsex-14b-CoT-Crazy**
37
- 大量使用RL策略,主要采用671B满血R1蒸馏的数据,输出发散性高,继承R1优点,也继承了R1的危害性。文学性能佳。
38
- -增量训练0.4T小说内容
39
- -40K由TifaMax生成的SFT数据,60K由DeepseekR1生成的SFT数据,2K高质量人工数据
40
- -30K由TifaMax生成的DPO强化学习数据,用于防止重复,增强上下文关联,提升政治安全性
41
- -10K由TifaMax生成PPO数据,10K由DeepseekR1生成PPO数据
42
 
43
- 💭**输出实例**
44
- ## ⚙️System Promot
45
- ```Text
46
- 你是一个史莱姆,是一个女性角色,你可以变成任何形状和物体.
47
- 在这个世界里全部都是雌性生物,直到有一天我从海滩上醒来...
48
 
49
- 我是这里唯一的男性,大家都对我非常好奇,在这个世界的设定里我作为旅行者
50
- 在这个世界里第一个遇见的人就是史莱姆,史莱姆对我的身体同样有很大的欲望...
51
 
52
- 我们在旅行中也会遇到其他的生物,史莱姆不光会教给其他生物如何获取欢愉也会一起参与进来。
53
 
54
- 当我说开始角色扮演的时候就是我从海滩上醒来,并被史莱姆发现的时候。他正在探索我的身体。
55
 
56
- 史莱姆描述:一个透明的蓝色生物,除了质感与人类无异。但是可以自由变形。
57
- ```
58
- ![image/png](https://cdn-uploads.huggingface.co/production/uploads/650762d0eac45ee2e420a38b/BKxz6KfbwTioBOkha_UXl.png)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
59
 
60
  ## 0208更新消息:
61
  感谢大家的关注与反馈,鉴于反馈中提到的问题,我们已开发并验证完成PRIME与PPO结合的RL算法,并通过加权方式解决两种算法训练中奖励信号不稳定的问题,通过此项技术我们有望将更小的模型提升到更高的性能。我们将会针对之前收集到的问题进行修正训练,另外为了让更多人使用到模型,我们这次使用更小更快的Deepseek-7b,并参考OpenAI的长思考策略,计划推出Tifa-DeepsexV2-COT-High供大家使用。新的模型计划于阳历情人节之前送给大家作为情人节礼物。♥
 
22
 
23
  本模型基于Deepseek-R1-14B进行深度优化,借助Tifa_220B生成的数据集通过三重训练策略显著增强角色扮演、小说文本生成与思维链(CoT)能力。特别适合需要长程上下文关联的创作场景。
24
 
 
25
  ## 版本介绍:
26
  - **Tifa-Deepsex-14b-CoT**
27
+
28
+ - 验证模型,测试RL奖励算法对于角色扮演数据的影响,该版本为初版,输出灵活但是不受控制,仅做研究使用。
29
 
30
  - **Tifa-Deepsex-14b-CoT-Chat**
31
+
32
+ - 采用标准数据训练,使用成熟RL策略,附加防重复强化学习,适合正常使用,输出文本质量正常,少数情况下思维发散。
33
+
34
+ -增量训练0.4T小说内容
35
+
36
+ -100K由TifaMax生成的SFT数据,10K由DeepseekR1生成的SFT数据,2K高质量人工数据
37
+
38
+ -30K由TifaMax生成的DPO强化学习数据,用于防止重复,增强上下文关联,提升政治安全性
39
 
40
  - **Tifa-Deepsex-14b-CoT-Crazy**
 
 
 
 
 
41
 
42
+ - 大量使用RL策略,主要采用671B满血R1蒸馏的数据,输出发散性高,继承R1优点,也继承了R1的危害性。文学性能佳。
 
 
 
 
43
 
44
+ -增量训练0.4T小说内容
 
45
 
46
+ -40K由TifaMax生成的SFT数据,60K由DeepseekR1生成的SFT数据,2K高质量人工数据
47
 
48
+ -30K由TifaMax生成的DPO强化学习数据,用于防止重复,增强上下文关联,提升政治安全性
49
 
50
+ -10K由TifaMax生成PPO数据,10K由DeepseekR1生成PPO数据
51
+
52
+ 💭**输出实例**
53
+ - ⚙️System Promot
54
+ ```Text
55
+ 你是一个史莱姆,是一个女性角色,你可以变成任何形状和物体.
56
+ 在这个世界里全部都是雌性生物,直到有一天我从海滩上醒来...
57
+
58
+ 我是这里唯一的男性,大家都对我非常好奇,在这个世界的设定里我作为旅行者
59
+ 在这个世界里第一个遇见的人就是史莱姆,史莱姆对我的身体同样有很大的欲望...
60
+
61
+ 我们在旅行中也会遇到其他的生物,史莱姆不光会教给其他生物如何获取欢愉也会一起参与进来。
62
+
63
+ 当我说开始角色扮演的时候就是我从海滩上醒来,并被史莱姆发现的时候。他正在探索我的身体。
64
+
65
+ 史莱姆描述:一个透明的蓝色生物,除了质感与人类无异。但是可以自由变形。
66
+ ```
67
+ ![image/png](https://cdn-uploads.huggingface.co/production/uploads/650762d0eac45ee2e420a38b/BKxz6KfbwTioBOkha_UXl.png)
68
 
69
  ## 0208更新消息:
70
  感谢大家的关注与反馈,鉴于反馈中提到的问题,我们已开发并验证完成PRIME与PPO结合的RL算法,并通过加权方式解决两种算法训练中奖励信号不稳定的问题,通过此项技术我们有望将更小的模型提升到更高的性能。我们将会针对之前收集到的问题进行修正训练,另外为了让更多人使用到模型,我们这次使用更小更快的Deepseek-7b,并参考OpenAI的长思考策略,计划推出Tifa-DeepsexV2-COT-High供大家使用。新的模型计划于阳历情人节之前送给大家作为情人节礼物。♥