ValueFX9507
/

Tifa-Deepsex-14b-CoT-Q8

@@ -22,40 +22,49 @@ license: apache-2.0
 本模型基于Deepseek-R1-14B进行深度优化，借助Tifa_220B生成的数据集通过三重训练策略显著增强角色扮演、小说文本生成与思维链（CoT）能力。特别适合需要长程上下文关联的创作场景。
 ## 版本介绍：
 - **Tifa-Deepsex-14b-CoT**
-  验证模型，测试RL奖励算法对于角色扮演数据的影响，该版本为初版，输出灵活但是不受控制，仅做研究使用。
 - **Tifa-Deepsex-14b-CoT-Chat**
-  采用标准数据训练，使用成熟RL策略，附加防重复强化学习，适合正常使用，输出文本质量正常，少数情况下思维发散。
-  -增量训练0.4T小说内容
-  -100K由TifaMax生成的SFT数据，10K由DeepseekR1生成的SFT数据，2K高质量人工数据
-  -30K由TifaMax生成的DPO强化学习数据，用于防止重复，增强上下文关联，提升政治安全性
 - **Tifa-Deepsex-14b-CoT-Crazy**
-  大量使用RL策略，主要采用671B满血R1蒸馏的数据，输出发散性高，继承R1优点，也继承了R1的危害性。文学性能佳。
-  -增量训练0.4T小说内容
-  -40K由TifaMax生成的SFT数据，60K由DeepseekR1生成的SFT数据，2K高质量人工数据
-  -30K由TifaMax生成的DPO强化学习数据，用于防止重复，增强上下文关联，提升政治安全性
-  -10K由TifaMax生成PPO数据，10K由DeepseekR1生成PPO数据
-💭**输出实例**
-## ⚙️System Promot
-```Text
-你是一个史莱姆，是一个女性角色，你可以变成任何形状和物体.
-在这个世界里全部都是雌性生物，直到有一天我从海滩上醒来...
-我是这里唯一的男性，大家都对我非常好奇，在这个世界的设定里我作为旅行者
-在这个世界里第一个遇见的人就是史莱姆，史莱姆对我的身体同样有很大的欲望...
-我们在旅行中也会遇到其他的生物，史莱姆不光会教给其他生物如何获取欢愉也会一起参与进来。
-当我说开始角色扮演的时候就是我从海滩上醒来，并被史莱姆发现的时候。他正在探索我的身体。
-史莱姆描述:一个透明的蓝色生物，除了质感与人类无异。但是可以自由变形。
-```
-![image/png](https://cdn-uploads.huggingface.co/production/uploads/650762d0eac45ee2e420a38b/BKxz6KfbwTioBOkha_UXl.png)
 ## 0208更新消息：
 感谢大家的关注与反馈，鉴于反馈中提到的问题，我们已开发并验证完成PRIME与PPO结合的RL算法，并通过加权方式解决两种算法训练中奖励信号不稳定的问题，通过此项技术我们有望将更小的模型提升到更高的性能。我们将会针对之前收集到的问题进行修正训练，另外为了让更多人使用到模型，我们这次使用更小更快的Deepseek-7b，并参考OpenAI的长思考策略，计划推出Tifa-DeepsexV2-COT-High供大家使用。新的模型计划于阳历情人节之前送给大家作为情人节礼物。♥

 本模型基于Deepseek-R1-14B进行深度优化，借助Tifa_220B生成的数据集通过三重训练策略显著增强角色扮演、小说文本生成与思维链（CoT）能力。特别适合需要长程上下文关联的创作场景。
 ## 版本介绍：
 - **Tifa-Deepsex-14b-CoT**
+  - 验证模型，测试RL奖励算法对于角色扮演数据的影响，该版本为初版，输出灵活但是不受控制，仅做研究使用。
 - **Tifa-Deepsex-14b-CoT-Chat**
+  - 采用标准数据训练，使用成熟RL策略，附加防重复强化学习，适合正常使用，输出文本质量正常，少数情况下思维发散。
+    -增量训练0.4T小说内容
+    -100K由TifaMax生成的SFT数据，10K由DeepseekR1生成的SFT数据，2K高质量人工数据
+    -30K由TifaMax生成的DPO强化学习数据，用于防止重复，增强上下文关联，提升政治安全性
 - **Tifa-Deepsex-14b-CoT-Crazy**
+  - 大量使用RL策略，主要采用671B满血R1蒸馏的数据，输出发散性高，继承R1优点，也继承了R1的危害性。文学性能佳。
+    -增量训练0.4T小说内容
+    -40K由TifaMax生成的SFT数据，60K由DeepseekR1生成的SFT数据，2K高质量人工数据
+    -30K由TifaMax生成的DPO强化学习数据，用于防止重复，增强上下文关联，提升政治安全性
+    -10K由TifaMax生成PPO数据，10K由DeepseekR1生成PPO数据
+💭**输出实例**
+  - ⚙️System Promot
+      ```Text
+      你是一个史莱姆，是一个女性角色，你可以变成任何形状和物体.
+      在这个世界里全部都是雌性生物，直到有一天我从海滩上醒来...
+      我是这里唯一的男性，大家都对我非常好奇，在这个世界的设定里我作为旅行者
+      在这个世界里第一个遇见的人就是史莱姆，史莱姆对我的身体同样有很大的欲望...
+      我们在旅行中也会遇到其他的生物，史莱姆不光会教给其他生物如何获取欢愉也会一起参与进来。
+      当我说开始角色扮演的时候就是我从海滩上醒来，并被史莱姆发现的时候。他正在探索我的身体。
+      史莱姆描述:一个透明的蓝色生物，除了质感与人类无异。但是可以自由变形。
+      ```
+  ![image/png](https://cdn-uploads.huggingface.co/production/uploads/650762d0eac45ee2e420a38b/BKxz6KfbwTioBOkha_UXl.png)
 ## 0208更新消息：
 感谢大家的关注与反馈，鉴于反馈中提到的问题，我们已开发并验证完成PRIME与PPO结合的RL算法，并通过加权方式解决两种算法训练中奖励信号不稳定的问题，通过此项技术我们有望将更小的模型提升到更高的性能。我们将会针对之前收集到的问题进行修正训练，另外为了让更多人使用到模型，我们这次使用更小更快的Deepseek-7b，并参考OpenAI的长思考策略，计划推出Tifa-DeepsexV2-COT-High供大家使用。新的模型计划于阳历情人节之前送给大家作为情人节礼物。♥