Text Generation
Transformers
Safetensors
chatglm
feature-extraction
custom_code
JosephusCheung commited on
Commit
e9b3303
·
verified ·
1 Parent(s): 7817dc3

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +23 -21
README.md CHANGED
@@ -5,26 +5,28 @@ language:
5
  - ja
6
  - de
7
  model-index:
8
- - name: miniG
9
- results:
10
- - task:
11
- type: text-generation
12
- metrics:
13
- - name: MMLU
14
- type: MMLU
15
- value: 85.45
16
- - name: IFEval
17
- type: IFEval
18
- value: 74.22
19
- - name: GSM8K (5-shot)
20
- type: GSM8K (5-shot)
21
- value: 75.89
22
- - name: HumanEval
23
- type: HumanEval
24
- value: 79.88
25
- - name: GPQA
26
- type: GPQA
27
- value: 37.37
 
 
28
  ---
29
  # miniG
30
 
@@ -60,4 +62,4 @@ Disclaimer: Please note that the model was trained on unfiltered internet data.
60
 
61
  关于[基准测试分数](https://huggingface.co/spaces/JosephusCheung/Goodharts-Law-on-Benchmarks-a-Page-for-miniG):一般来说,你不应该太过在意这些分数,因为人们总是可以专门训练以取得好成绩。我们主要将它们作为一个冒烟测试,一种快速检查,确保没有发生重大回退。事实上,如果你真的去阅读这些基准测试问题本身,你常常会发现自己会忍不住笑出声来,因为它们是多么无聊、低质量,甚至荒谬可笑。
62
 
63
- 免责声明:请注意,该模型是在未经过滤的互联网数据上训练的。由于我们无法对所有数据进行筛选,仍有可能存在大量不适当的内容——包括从露骨的材料到暴力和攻击性语言的内容——我们无法移除。因此,您必须自行对模型进行安全检查,并在输出中实施关键词过滤。由于计算资源的限制,我们目前无法为伦理和安全考虑进行人类反馈的强化学习(RLHF),也不能对SFT样本进行限制性微调,以限制模型回答某些问题的能力。
 
5
  - ja
6
  - de
7
  model-index:
8
+ - name: miniG
9
+ results:
10
+ - task:
11
+ type: text-generation
12
+ metrics:
13
+ - name: MMLU
14
+ type: MMLU
15
+ value: 85.45
16
+ - name: IFEval
17
+ type: IFEval
18
+ value: 74.22
19
+ - name: GSM8K (5-shot)
20
+ type: GSM8K (5-shot)
21
+ value: 75.89
22
+ - name: HumanEval
23
+ type: HumanEval
24
+ value: 79.88
25
+ - name: GPQA
26
+ type: GPQA
27
+ value: 37.37
28
+ license: agpl-3.0
29
+ pipeline_tag: text-generation
30
  ---
31
  # miniG
32
 
 
62
 
63
  关于[基准测试分数](https://huggingface.co/spaces/JosephusCheung/Goodharts-Law-on-Benchmarks-a-Page-for-miniG):一般来说,你不应该太过在意这些分数,因为人们总是可以专门训练以取得好成绩。我们主要将它们作为一个冒烟测试,一种快速检查,确保没有发生重大回退。事实上,如果你真的去阅读这些基准测试问题本身,你常常会发现自己会忍不住笑出声来,因为它们是多么无聊、低质量,甚至荒谬可笑。
64
 
65
+ 免责声明:请注意,该模型是在未经过滤的互联网数据上训练的。由于我们无法对所有数据进行筛选,仍有可能存在大量不适当的内容——包括从露骨的材料到暴力和攻击性语言的内容——我们无法移除。因此,您必须自行对模型进行安全检查,并在输出中实施关键词过滤。由于计算资源的限制,我们目前无法为伦理和安全考虑进行人类反馈的强化学习(RLHF),也不能对SFT样本进行限制性微调,以限制模型回答某些问题的能力。