RedHatAI
/

DeepSeek-R1-Distill-Qwen-1.5B-quantized.w4a16

@@ -167,57 +167,57 @@ lm_eval \
       <td rowspan="7"><b>OpenLLM V1</b></td>
       <td>ARC-Challenge (Acc-Norm, 25-shot)</td>
       <td>37.20</td>
-      <td></td>
-      <td>%</td>
     </tr>
     <tr>
       <td>GSM8K (Strict-Match, 5-shot)</td>
       <td>69.98</td>
-      <td></td>
-      <td>%</td>
     </tr>
     <tr>
       <td>HellaSwag (Acc-Norm, 10-shot)</td>
       <td>43.86</td>
-      <td></td>
-      <td>%</td>
     </tr>
     <tr>
       <td>MMLU (Acc, 5-shot)</td>
       <td>37.38</td>
-      <td></td>
-      <td>%</td>
     </tr>
     <tr>
       <td>TruthfulQA (MC2, 0-shot)</td>
       <td>45.21</td>
-      <td></td>
-      <td>%</td>
     </tr>
     <tr>
       <td>Winogrande (Acc, 5-shot)</td>
       <td>54.30</td>
-      <td></td>
-      <td>%</td>
     </tr>
     <tr>
       <td><b>Average Score</b></td>
       <td><b>47.99</b></td>
-      <td><b></b></td>
-      <td><b>%</b></td>
     </tr>
     <tr>
       <td rowspan="7"><b>OpenLLM V2</b></td>
       <td>IFEval (Inst Level Strict Acc, 0-shot)</td>
       <td>34.37</td>
-      <td></td>
-      <td>%</td>
     </tr>
     <tr>
       <td>BBH (Acc-Norm, 3-shot)</td>
       <td>34.44</td>
-      <td></td>
-      <td>%</td>
     </tr>
     <tr>
       <td>Math-Hard (Exact-Match, 4-shot)</td>
@@ -228,26 +228,26 @@ lm_eval \
     <tr>
       <td>GPQA (Acc-Norm, 0-shot)</td>
       <td>24.67</td>
-      <td></td>
-      <td>%</td>
     </tr>
     <tr>
       <td>MUSR (Acc-Norm, 0-shot)</td>
       <td>35.82</td>
-      <td></td>
-      <td>%</td>
     </tr>
     <tr>
       <td>MMLU-Pro (Acc, 5-shot)</td>
       <td>11.80</td>
-      <td></td>
-      <td>%</td>
     </tr>
     <tr>
       <td><b>Average Score</b></td>
       <td><b>23.52</b></td>
-      <td><b></b></td>
-      <td><b>%</b></td>
     </tr>
     <tr>
       <td rowspan="4"><b>Coding</b></td>

       <td rowspan="7"><b>OpenLLM V1</b></td>
       <td>ARC-Challenge (Acc-Norm, 25-shot)</td>
       <td>37.20</td>
+      <td>35.84</td>
+      <td>96.3%</td>
     </tr>
     <tr>
       <td>GSM8K (Strict-Match, 5-shot)</td>
       <td>69.98</td>
+      <td>68.01</td>
+      <td>97.2%</td>
     </tr>
     <tr>
       <td>HellaSwag (Acc-Norm, 10-shot)</td>
       <td>43.86</td>
+      <td>42.38</td>
+      <td>96.6%</td>
     </tr>
     <tr>
       <td>MMLU (Acc, 5-shot)</td>
       <td>37.38</td>
+      <td>36.98</td>
+      <td>98.9%</td>
     </tr>
     <tr>
       <td>TruthfulQA (MC2, 0-shot)</td>
       <td>45.21</td>
+      <td>46.68</td>
+      <td>103.3%</td>
     </tr>
     <tr>
       <td>Winogrande (Acc, 5-shot)</td>
       <td>54.30</td>
+      <td>55.49</td>
+      <td>102.2%</td>
     </tr>
     <tr>
       <td><b>Average Score</b></td>
       <td><b>47.99</b></td>
+      <td><b>47.56</b></td>
+      <td><b>99.1%</b></td>
     </tr>
     <tr>
       <td rowspan="7"><b>OpenLLM V2</b></td>
       <td>IFEval (Inst Level Strict Acc, 0-shot)</td>
       <td>34.37</td>
+      <td>34.42</td>
+      <td>100.2%</td>
     </tr>
     <tr>
       <td>BBH (Acc-Norm, 3-shot)</td>
       <td>34.44</td>
+      <td>36.48</td>
+      <td>105.9%</td>
     </tr>
     <tr>
       <td>Math-Hard (Exact-Match, 4-shot)</td>
     <tr>
       <td>GPQA (Acc-Norm, 0-shot)</td>
       <td>24.67</td>
+      <td>24.78</td>
+      <td>100.5%</td>
     </tr>
     <tr>
       <td>MUSR (Acc-Norm, 0-shot)</td>
       <td>35.82</td>
+      <td>35.55</td>
+      <td>99.3%</td>
     </tr>
     <tr>
       <td>MMLU-Pro (Acc, 5-shot)</td>
       <td>11.80</td>
+      <td>11.40</td>
+      <td>96.6%</td>
     </tr>
     <tr>
       <td><b>Average Score</b></td>
       <td><b>23.52</b></td>
+      <td><b>23.77</b></td>
+      <td><b>101.1%</b></td>
     </tr>
     <tr>
       <td rowspan="4"><b>Coding</b></td>