Update README.md
Browse files
README.md
CHANGED
@@ -129,14 +129,8 @@ for seq in sequences:
|
|
129 |
- **BP16 if applicable:** [apex](https://github.com/NVIDIA/apex)
|
130 |
|
131 |
|
132 |
-
<a id="chinese"></a>
|
133 |
-
|
134 |
-
<p align="center">
|
135 |
-
<img width="300px" alt="OpenCSG" src="https://cdn-uploads.huggingface.co/production/uploads/64c71b27d43e4dee51a8b31a/GwYXPKuEoGCGcMICeW-sb.jpeg">
|
136 |
-
</p>
|
137 |
-
|
138 |
-
<p align="center"><a href="https://portal.opencsg.com/models">[OpenCSG Community]</a> <a href="https://github.com/opencsgs">[github]</a> <a href="https://cdn-uploads.huggingface.co/production/uploads/64c71b27d43e4dee51a8b31a/HU6vz21qKTEmUBCWqCFh9.jpeg">[wechat]</a> <a href="https://twitter.com/OpenCsg">[Twitter]</a> </p>
|
139 |
|
|
|
140 |
|
141 |
</div>
|
142 |
OpenCSG 致力于资源融合、软件求精和生成式 LM。其中,“C”代表资源融合(Converged resources),表示多种混合资源的整合和充分利用。 “S”代表软件求精(Software refinement),表示通过大模型精炼过的软件。 “G”代表生成型语言模型(Generative LM),它表示广泛使用的、包容性的、经过民主化的生成式大模型。
|
@@ -148,11 +142,11 @@ OpenCSG 的愿景是让每个行业、每个公司、每个人都拥有自己的
|
|
148 |
|
149 |
## 模型介绍
|
150 |
|
151 |
-
CodeLlama 是一系列由 Llama2
|
152 |
opencsg-CodeLlama-v0.1是一系列基于CodeLlama的通过全参数微调方法进行调优的模型。
|
153 |
<br>
|
154 |
|
155 |
-
这是基于[CodeLlama-7b-hf](https://huggingface.co/codellama/CodeLlama-7b-hf)
|
156 |
|
157 |
| 模型大小 | 基座模型 |
|
158 |
| --- | ----------------------------------------------------------------------------- |
|
@@ -164,13 +158,13 @@ opencsg-CodeLlama-v0.1是一系列基于CodeLlama的通过全参数微调方法
|
|
164 |
## 模型评估
|
165 |
|
166 |
HumanEval 是评估模型在代码生成方面性能的最常见的基准,尤其是在代码习题的补全方面。
|
167 |
-
|
168 |
-
|
169 |
|
170 |
因此,OpenCSG 提供了一个相对公平的方法来在 HumanEval 基准上比较各微调模型。
|
171 |
-
|
172 |
|
173 |
-
|
174 |
|
175 |
**除此之外,我们在评估过程中对每个模型都使用贪婪解码方法。**
|
176 |
|
@@ -184,7 +178,7 @@ HumanEval 是评估模型在代码生成方面性能的最常见的基准,尤
|
|
184 |
| opencsg-CodeLlama-34b-v0.1(4k)| **48.8%** |
|
185 |
|
186 |
**TODO**
|
187 |
-
-
|
188 |
- 我们将提供不同的实际问题来评估微调模型在软件工程领域的性能。
|
189 |
|
190 |
|
@@ -236,12 +230,12 @@ for seq in sequences:
|
|
236 |
|
237 |
## 硬件资源
|
238 |
|
239 |
-
- **
|
240 |
- **训练时间:** 4 小时
|
241 |
|
242 |
## 软件使用
|
243 |
|
244 |
-
-
|
245 |
-
-
|
246 |
-
-
|
247 |
|
|
|
129 |
- **BP16 if applicable:** [apex](https://github.com/NVIDIA/apex)
|
130 |
|
131 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
132 |
|
133 |
+
<a id="chinese"></a>
|
134 |
|
135 |
</div>
|
136 |
OpenCSG 致力于资源融合、软件求精和生成式 LM。其中,“C”代表资源融合(Converged resources),表示多种混合资源的整合和充分利用。 “S”代表软件求精(Software refinement),表示通过大模型精炼过的软件。 “G”代表生成型语言模型(Generative LM),它表示广泛使用的、包容性的、经过民主化的生成式大模型。
|
|
|
142 |
|
143 |
## 模型介绍
|
144 |
|
145 |
+
CodeLlama 是一系列由 Llama2 经过预训练和微调得到的生成式代码大模型,其规模从 70 亿到 340 亿个参数不等。
|
146 |
opencsg-CodeLlama-v0.1是一系列基于CodeLlama的通过全参数微调方法进行调优的模型。
|
147 |
<br>
|
148 |
|
149 |
+
这是基于[CodeLlama-7b-hf](https://huggingface.co/codellama/CodeLlama-7b-hf)进行微调的模型版本。
|
150 |
|
151 |
| 模型大小 | 基座模型 |
|
152 |
| --- | ----------------------------------------------------------------------------- |
|
|
|
158 |
## 模型评估
|
159 |
|
160 |
HumanEval 是评估模型在代码生成方面性能的最常见的基准,尤其是在代码习题的补全方面。
|
161 |
+
模型评估在某种程度上是一种玄学。不同的模型对解码方法、参数和指令的敏感度不同,
|
162 |
+
优秀的大模型是具备通用能力的,而不会因为解码参数的调整使得模型的生成表现有很大的差异。
|
163 |
|
164 |
因此,OpenCSG 提供了一个相对公平的方法来在 HumanEval 基准上比较各微调模型。
|
165 |
+
方便起见,我们选择了Python语言Pass@1指标,但要注意的是,我们的微调数据集是包含多种编程语言。
|
166 |
|
167 |
+
**为了公平起见,我们仅根据原始问题的提示来评估原始和微调过的 CodeLlama 模型,不包含任何其他说明。**
|
168 |
|
169 |
**除此之外,我们在评估过程中对每个模型都使用贪婪解码方法。**
|
170 |
|
|
|
178 |
| opencsg-CodeLlama-34b-v0.1(4k)| **48.8%** |
|
179 |
|
180 |
**TODO**
|
181 |
+
- 未来我们将提供更多微调模型的在各基准上的分数。
|
182 |
- 我们将提供不同的实际问题来评估微调模型在软件工程领域的性能。
|
183 |
|
184 |
|
|
|
230 |
|
231 |
## 硬件资源
|
232 |
|
233 |
+
- **GPU数量:** 8 Tesla A800
|
234 |
- **训练时间:** 4 小时
|
235 |
|
236 |
## 软件使用
|
237 |
|
238 |
+
- **微调训练框架:** [Deepspeed](https://github.com/OpenCSGs)
|
239 |
+
- **深度学习框架:** [PyTorch](https://github.com/pytorch/pytorch)
|
240 |
+
- **BP16:** [apex](https://github.com/NVIDIA/apex)
|
241 |
|