Upload README_CN.md with huggingface_hub
Browse files- README_CN.md +61 -6
 
    	
        README_CN.md
    CHANGED
    
    | 
         @@ -24,7 +24,7 @@ tags: 
     | 
|
| 24 | 
         
             
            </div>
         
     | 
| 25 | 
         
             
            <div align="center">
         
     | 
| 26 | 
         
             
                🤗 <a href="https://huggingface.co/qihoo360">Hugging Face</a>   |   
         
     | 
| 27 | 
         
            -
                🤖 <a href="https:// 
     | 
| 28 | 
         
             
                💬 <a href="./assets/WeChat.png">WeChat (微信)</a>  
         
     | 
| 29 | 
         
             
            </div>
         
     | 
| 30 | 
         
             
            <br>
         
     | 
| 
         @@ -71,14 +71,17 @@ token,第二阶段我们加⼤了⾼质量数据的占⽐,训练了100B⾼ 
     | 
|
| 71 | 
         
             
            本次发布版本和下载链接见下表:
         
     | 
| 72 | 
         
             
            | Size | Model | BF16 | Int4|
         
     | 
| 73 | 
         
             
            |:-:|-|:-:|:-:|
         
     | 
| 74 | 
         
            -
            | 7B | 360Zhinao2-7B-Base | <a href="https:// 
     | 
| 75 | 
         
            -
            | 7B | 360Zhinao2-7B-Chat-4K | <a href="https:// 
     | 
| 76 | 
         
            -
            | 7B | 360Zhinao2-7B-Chat-32K | <a href="https:// 
     | 
| 77 | 
         
            -
            | 7B | 360Zhinao2-7B-Chat-360K | <a href="https:// 
     | 
| 78 | 
         | 
| 79 | 
         
             
            <br>
         
     | 
| 80 | 
         | 
| 81 | 
         
             
            # 模型评估
         
     | 
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 82 | 
         
             
            我们使⽤了开源⼯具opencompass对模型进⾏评估,对⽐了近半年国内外开源的10B以下模型,
         
     | 
| 83 | 
         
             
            360Zhinao2-7B具备较强的竞争⼒。360Zhinao2-7B在CEval(中⽂
         
     | 
| 84 | 
         
             
            考试)、C3(中⽂阅读理解)、lcsts(中⽂短⽂本摘要)等中⽂benchmark上表现不俗,中⽂
         
     | 
| 
         @@ -169,7 +172,59 @@ benchmark均分排名第⼀。在挑战性的竞赛数学数据集math上,同 
     | 
|
| 169 | 
         
             
                </tr>
         
     | 
| 170 | 
         
             
            </table>
         
     | 
| 171 | 
         | 
| 172 | 
         
            -
             
     | 
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 
         | 
|
| 173 | 
         | 
| 174 | 
         
             
            # 快速开始
         
     | 
| 175 | 
         
             
            简单的示例来说明如何利用🤖 ModelScope和🤗 Transformers快速使用360Zhinao2-7B-Base和360Zhinao2-7B-Chat
         
     | 
| 
         | 
|
| 24 | 
         
             
            </div>
         
     | 
| 25 | 
         
             
            <div align="center">
         
     | 
| 26 | 
         
             
                🤗 <a href="https://huggingface.co/qihoo360">Hugging Face</a>   |   
         
     | 
| 27 | 
         
            +
                🤖 <a href="https://modelscope.cn/organization/360zhinao">ModelScope</a>   |   
         
     | 
| 28 | 
         
             
                💬 <a href="./assets/WeChat.png">WeChat (微信)</a>  
         
     | 
| 29 | 
         
             
            </div>
         
     | 
| 30 | 
         
             
            <br>
         
     | 
| 
         | 
|
| 71 | 
         
             
            本次发布版本和下载链接见下表:
         
     | 
| 72 | 
         
             
            | Size | Model | BF16 | Int4|
         
     | 
| 73 | 
         
             
            |:-:|-|:-:|:-:|
         
     | 
| 74 | 
         
            +
            | 7B | 360Zhinao2-7B-Base | <a href="https://modelscope.cn/models/360zhinao/360Zhinao2-7B-Base/summary">🤖</a>  <a href="https://huggingface.co/qihoo360/360Zhinao2-7B-Base">🤗</a> |  |
         
     | 
| 75 | 
         
            +
            | 7B | 360Zhinao2-7B-Chat-4K | <a href="https://modelscope.cn/models/360zhinao/360Zhinao2-7B-Chat-4K/summary">🤖</a>  <a href="https://huggingface.co/qihoo360/360Zhinao2-7B-Chat-4K">🤗</a> | <a href="https://modelscope.cn/models/360zhinao/360Zhinao2-7B-Chat-4K-Int4/summary">🤖</a>  <a href="https://huggingface.co/qihoo360/360Zhinao2-7B-Chat-4K-Int4">🤗</a> |
         
     | 
| 76 | 
         
            +
            | 7B | 360Zhinao2-7B-Chat-32K | <a href="https://modelscope.cn/models/360zhinao/360Zhinao2-7B-Chat-32K/summary">🤖</a>  <a href="https://huggingface.co/qihoo360/360Zhinao2-7B-Chat-32K">🤗</a> | <a href="https://modelscope.cn/models/360zhinao/360Zhinao2-7B-Chat-32K-Int4/summary">🤖</a>  <a href="https://huggingface.co/qihoo360/360Zhinao2-7B-Chat-32K-Int4">🤗</a> |
         
     | 
| 77 | 
         
            +
            | 7B | 360Zhinao2-7B-Chat-360K | <a href="https://modelscope.cn/models/360zhinao/360Zhinao2-7B-Chat-360K/summary">🤖</a>  <a href="https://huggingface.co/qihoo360/360Zhinao2-7B-Chat-360K">🤗</a> | <a href="https://modelscope.cn/models/360zhinao/360Zhinao2-7B-Chat-360K-Int4/summary">🤖</a>  <a href="https://huggingface.co/qihoo360/360Zhinao2-7B-Chat-360K-Int4">🤗</a> |
         
     | 
| 78 | 
         | 
| 79 | 
         
             
            <br>
         
     | 
| 80 | 
         | 
| 81 | 
         
             
            # 模型评估
         
     | 
| 82 | 
         
            +
             
     | 
| 83 | 
         
            +
            ## 基础模型
         
     | 
| 84 | 
         
            +
             
     | 
| 85 | 
         
             
            我们使⽤了开源⼯具opencompass对模型进⾏评估,对⽐了近半年国内外开源的10B以下模型,
         
     | 
| 86 | 
         
             
            360Zhinao2-7B具备较强的竞争⼒。360Zhinao2-7B在CEval(中⽂
         
     | 
| 87 | 
         
             
            考试)、C3(中⽂阅读理解)、lcsts(中⽂短⽂本摘要)等中⽂benchmark上表现不俗,中⽂
         
     | 
| 
         | 
|
| 172 | 
         
             
                </tr>
         
     | 
| 173 | 
         
             
            </table>
         
     | 
| 174 | 
         | 
| 175 | 
         
            +
             
     | 
| 176 | 
         
            +
            ## Chat模型
         
     | 
| 177 | 
         
            +
             
     | 
| 178 | 
         
            +
            ### 后训练数据
         
     | 
| 179 | 
         
            +
            360自有通用微调数据50w,该数据综合考虑各个技能及360垂直业务数据,生成方法如下:
         
     | 
| 180 | 
         
            +
               1. 数据多样性:根据360自有标签体系进行领域,意图,难度,长度的分层采样,确保指令多样性
         
     | 
| 181 | 
         
            +
               2. 数据质量:使用开源数据以及自有的偏序数据训练了360gpt-pro-rm(reward bench得分92.59),使用该模型进行样本筛选,过滤response低质数据
         
     | 
| 182 | 
         
            +
               3. 复杂指令进化:使用进化方式做复杂指令优化,优化指令跟随能力
         
     | 
| 183 | 
         
            +
             
     | 
| 184 | 
         
            +
            ### 训练方法
         
     | 
| 185 | 
         
            +
            1. 全参数微调
         
     | 
| 186 | 
         
            +
             
     | 
| 187 | 
         
            +
                基于通用后训练数据,进行全参数微调,选择最优checkpoint作为sft-base。
         
     | 
| 188 | 
         
            +
             
     | 
| 189 | 
         
            +
            2. Lora offline DPO强化
         
     | 
| 190 | 
         
            +
             
     | 
| 191 | 
         
            +
                使用人类标注好的偏好pair对,采用Lora方法对sft-base进行lora微调,然后进行lora DPO训练。
         
     | 
| 192 | 
         
            +
             
     | 
| 193 | 
         
            +
            3. Iterative on-policy DPO 全参数强化
         
     | 
| 194 | 
         
            +
             
     | 
| 195 | 
         
            +
                使用sft-base模型在训练prompt上采样多个答案,用360gpt-pro-rm打分,取最高最低分组pair进行DPO训练。我们迭代地使用这种on-policy DPO提升模型效果。
         
     | 
| 196 | 
         
            +
             
     | 
| 197 | 
         
            +
            4. 模型合并
         
     | 
| 198 | 
         
            +
                
         
     | 
| 199 | 
         
            +
                在360公司白盒评测集合4上,针对上述3个模型做自动评测,发现不同模型各有其又是技能,考虑模型合并方案。基于sft模型为base做内插得到模型v1,然后仍以sft模���为base和v1模型进行外插,外插系数0.2 最终得到360Zhicao2-7B-Chat-4k.
         
     | 
| 200 | 
         
            +
             
     | 
| 201 | 
         
            +
            ### 模型效果
         
     | 
| 202 | 
         
            +
               我们在一些经典任务上对 360Zhicao2-7B-Chat-4k 模型进行了评测。IFEval (prompt strict) 仅次于GLM4-9B,7b开源模型最高;MT-bench第3名略差于Qwen2.5-7B,7B模型排名第二;CF-Bench第3,在PSR上仅次于GLM4-9B,详细结果如下表:
         
     | 
| 203 | 
         
            +
             
     | 
| 204 | 
         
            +
            | Model                | MT-bench | IFEval(strict prompt) | CFBench(CSR,ISR,PSR) |      |      |
         
     | 
| 205 | 
         
            +
            |----------------------|----------|-----------------------|----------------------|------|------|
         
     | 
| 206 | 
         
            +
            | Qwen2.5-7B-Instruct  | **8.07** | 0.556                 | **0.81**             | 0.46 | 0.57 |
         
     | 
| 207 | 
         
            +
            | Yi-9B-16k-Chat       | 7.44     | 0.455                 | 0.75                 | 0.4  | 0.52 |
         
     | 
| 208 | 
         
            +
            | GLM4-9B-Chat         | **8.08** | **0.634**             | **0.82**             | 0.48 | 0.61 |
         
     | 
| 209 | 
         
            +
            | InternLM2.5-7B-Chat  | 7.39     | 0.540                 | 0.78                 | 0.4  | 0.54 |
         
     | 
| 210 | 
         
            +
            | 360Zhicao2-7B-Chat-4k| 7.86     | **0.577**             | 0.8                  | 0.44 | 0.57 |
         
     | 
| 211 | 
         
            +
             
     | 
| 212 | 
         
            +
             
     | 
| 213 | 
         
            +
             
     | 
| 214 | 
         
            +
            ### 长文本微调
         
     | 
| 215 | 
         
            +
            与360Zhinao1开源时的做法基本一致,我们将RoPE base依次扩大为1000,000和50,000,000,混合长短文本的SFT数据依次拼接至32k和360k,将gradient checkpointing、ZeRO3 offload和ring attention等技术结合,依次微调得到32k和360k长文本模型。在各个32k benchmark上位列第一梯队。
         
     | 
| 216 | 
         
            +
             
     | 
| 217 | 
         
            +
            | Model                        | LooGLE-长依赖QA | Loong-Set 1 (32k) | LongBench-Chat (32k截断) | LEval-96题子集胜率 | LEval-客观题均分 |
         
     | 
| 218 | 
         
            +
            |------------------------------|-----------------|-------------------|--------------------------|--------------------|------------------|
         
     | 
| 219 | 
         
            +
            | GLM4-9B-Chat                 | 0.36            | 55.24             | 6.60                     | 0.49               | 63.96            |
         
     | 
| 220 | 
         
            +
            | InternLM2.5-7B-Chat          | 0.39            | 42.76             | 5.70                     | 0.44               | 61.64            |
         
     | 
| 221 | 
         
            +
            | 360Zhinao2-7B-Chat-32k       | 0.33            | 39.37             | 5.44                     | 0.44               | 60.48            |
         
     | 
| 222 | 
         
            +
            | 360Zhinao2-7B-Chat-360k      | 0.34            | 32.16             | 5.08                     | 0.38               | 53.00            |
         
     | 
| 223 | 
         
            +
            | Yi-1.5-9B-Chat               | 0.25            | 32.77             | 4.70                     | 0.37               | 56.22            |
         
     | 
| 224 | 
         
            +
             
     | 
| 225 | 
         
            +
            <br>
         
     | 
| 226 | 
         
            +
             
     | 
| 227 | 
         
            +
             
     | 
| 228 | 
         | 
| 229 | 
         
             
            # 快速开始
         
     | 
| 230 | 
         
             
            简单的示例来说明如何利用🤖 ModelScope和🤗 Transformers快速使用360Zhinao2-7B-Base和360Zhinao2-7B-Chat
         
     |