BrownianNotion
/

TinyLlama_v1.1_mix_wikitext_alpaca_2bit_BitDistiller_baseline

Model card Files Files and versions Community

BrownianNotion commited on about 1 month ago

Commit

96ab1ef

·

verified ·

1 Parent(s): 8531f36

Upload metrics for baseline

Files changed (1) hide show

README.md +94 -0

README.md ADDED Viewed

	@@ -0,0 +1,94 @@

+---
+datasets:
+- mindchain/wikitext2
+- yahma/alpaca-cleaned
+metrics:
+- perplexity
+- accuracy
+base_model:
+- TinyLlama/TinyLlama_v1.1
+model-index:
+- name: TinyLlama_v1.1_mix_wikitext_alpaca_2bit_BitDistiller_baseline
+  results:
+  - task:
+      type: multiple-choice
+      name: QA Benchmarking
+    dataset:
+      type: allenai/arc
+      name: ARC-Challenge
+      config: challenge
+      split: test
+    metrics:
+      - type: accuracy
+        name: Accuracy
+        value: 0.2150170648464164
+      - type: accuracy
+        name: Normalized Accuracy
+        value: 0.24573378839590443
+  - task:
+      type: multiple-choice
+      name: QA Benchmarking
+    dataset:
+      type: hellaswag
+      name: HellaSwag
+      split: test
+    metrics:
+      - type: accuracy
+        name: Accuracy
+        value: 0.3240390360485959
+      - type: accuracy
+        name: Normalized Accuracy
+        value: 0.37333200557657836
+  - task:
+      type: multiple-choice
+      name: QA Benchmarking
+    dataset:
+      type: piqa
+      name: PIQA
+      split: validation
+    metrics:
+      - type: accuracy
+        name: Accuracy
+        value: 0.6082698585418934
+      - type: accuracy
+        name: Normalized Accuracy
+        value: 0.6071817192600653
+  - task:
+      type: multiple-choice
+      name: QA Benchmarking
+    dataset:
+      type: winogrande
+      name: Winogrande
+      split: test
+    metrics:
+      - type: accuracy
+        name: Accuracy
+        value: 0.5201262825572218
+  - task:
+      type: multiple-choice
+      name: QA Benchmarking
+    dataset:
+      type: aggregated
+      name: QA-Avg
+    metrics:
+      - type: accuracy
+        name: QA Average
+        value: 0.4168630604985319
+  - task:
+      type: language-modeling
+      name: Language Modeling
+    dataset:
+      type: wikitext
+      name: WikiText-2
+      split: test
+    metrics:
+      - type: perplexity
+        name: Perplexity
+        value: 22.655162811279297
+---
+TODO: check the splits of each dataset