Update README.md
Browse files
README.md
CHANGED
@@ -5,26 +5,28 @@ language:
|
|
5 |
- ja
|
6 |
- de
|
7 |
model-index:
|
8 |
-
|
9 |
-
|
10 |
-
|
11 |
-
|
12 |
-
|
13 |
-
|
14 |
-
|
15 |
-
|
16 |
-
|
17 |
-
|
18 |
-
|
19 |
-
|
20 |
-
|
21 |
-
|
22 |
-
|
23 |
-
|
24 |
-
|
25 |
-
|
26 |
-
|
27 |
-
|
|
|
|
|
28 |
---
|
29 |
# miniG
|
30 |
|
@@ -60,4 +62,4 @@ Disclaimer: Please note that the model was trained on unfiltered internet data.
|
|
60 |
|
61 |
关于[基准测试分数](https://huggingface.co/spaces/JosephusCheung/Goodharts-Law-on-Benchmarks-a-Page-for-miniG):一般来说,你不应该太过在意这些分数,因为人们总是可以专门训练以取得好成绩。我们主要将它们作为一个冒烟测试,一种快速检查,确保没有发生重大回退。事实上,如果你真的去阅读这些基准测试问题本身,你常常会发现自己会忍不住笑出声来,因为它们是多么无聊、低质量,甚至荒谬可笑。
|
62 |
|
63 |
-
免责声明:请注意,该模型是在未经过滤的互联网数据上训练的。由于我们无法对所有数据进行筛选,仍有可能存在大量不适当的内容——包括从露骨的材料到暴力和攻击性语言的内容——我们无法移除。因此,您必须自行对模型进行安全检查,并在输出中实施关键词过滤。由于计算资源的限制,我们目前无法为伦理和安全考虑进行人类反馈的强化学习(RLHF),也不能对SFT样本进行限制性微调,以限制模型回答某些问题的能力。
|
|
|
5 |
- ja
|
6 |
- de
|
7 |
model-index:
|
8 |
+
- name: miniG
|
9 |
+
results:
|
10 |
+
- task:
|
11 |
+
type: text-generation
|
12 |
+
metrics:
|
13 |
+
- name: MMLU
|
14 |
+
type: MMLU
|
15 |
+
value: 85.45
|
16 |
+
- name: IFEval
|
17 |
+
type: IFEval
|
18 |
+
value: 74.22
|
19 |
+
- name: GSM8K (5-shot)
|
20 |
+
type: GSM8K (5-shot)
|
21 |
+
value: 75.89
|
22 |
+
- name: HumanEval
|
23 |
+
type: HumanEval
|
24 |
+
value: 79.88
|
25 |
+
- name: GPQA
|
26 |
+
type: GPQA
|
27 |
+
value: 37.37
|
28 |
+
license: agpl-3.0
|
29 |
+
pipeline_tag: text-generation
|
30 |
---
|
31 |
# miniG
|
32 |
|
|
|
62 |
|
63 |
关于[基准测试分数](https://huggingface.co/spaces/JosephusCheung/Goodharts-Law-on-Benchmarks-a-Page-for-miniG):一般来说,你不应该太过在意这些分数,因为人们总是可以专门训练以取得好成绩。我们主要将它们作为一个冒烟测试,一种快速检查,确保没有发生重大回退。事实上,如果你真的去阅读这些基准测试问题本身,你常常会发现自己会忍不住笑出声来,因为它们是多么无聊、低质量,甚至荒谬可笑。
|
64 |
|
65 |
+
免责声明:请注意,该模型是在未经过滤的互联网数据上训练的。由于我们无法对所有数据进行筛选,仍有可能存在大量不适当的内容——包括从露骨的材料到暴力和攻击性语言的内容——我们无法移除。因此,您必须自行对模型进行安全检查,并在输出中实施关键词过滤。由于计算资源的限制,我们目前无法为伦理和安全考虑进行人类反馈的强化学习(RLHF),也不能对SFT样本进行限制性微调,以限制模型回答某些问题的能力。
|