RedHatAI
/

Pixtral-Large-Instruct-2411-hf-FP8-dynamic

@@ -660,7 +660,7 @@ The following performance benchmarks were conducted with [vLLM](https://docs.vll
 <details>
 <summary>Benchmarking Command</summary>
 ```
-  guidellm --model nm-testing/Pixtral-Large-Instruct-2411-hf-quantized.w4a16 --target "http://localhost:8000/v1" --data-type emulated --data prompt_tokens=<prompt_tokens>,generated_tokens=<generated_tokens>,images=<num_images>,width=<image_width>,height=<image_height> --max seconds 120 --backend aiohttp_server
 ```
 </details>
@@ -695,7 +695,7 @@ The following performance benchmarks were conducted with [vLLM](https://docs.vll
     <tr>
       <th rowspan="3" valign="top">A100</th>
       <td>4</td>
-      <td>nm-testing/Pixtral-Large-Instruct-2411-hf</td>
       <td></td>
       <td>7.5</td>
       <td>67</td>
@@ -706,7 +706,7 @@ The following performance benchmarks were conducted with [vLLM](https://docs.vll
     </tr>
     <tr>
       <td>2</td>
-      <td>nm-testing/Pixtral-Large-Instruct-2411-hf-quantized.w8a8</td>
       <td>1.86</td>
       <td>8.1</td>
       <td>124</td>
@@ -717,7 +717,7 @@ The following performance benchmarks were conducted with [vLLM](https://docs.vll
     </tr>
     <tr>
       <td>2</td>
-      <td>nm-testing/Pixtral-Large-Instruct-2411-hf-quantized.w4a16</td>
       <td>2.52</td>
       <td>6.9</td>
       <td>147</td>
@@ -729,7 +729,7 @@ The following performance benchmarks were conducted with [vLLM](https://docs.vll
     <tr>
       <th rowspan="3" valign="top">H100</th>
       <td>4</td>
-      <td>nm-testing/Pixtral-Large-Instruct-2411-hf</td>
       <td></td>
       <td>4.4</td>
       <td>67</td>
@@ -740,7 +740,7 @@ The following performance benchmarks were conducted with [vLLM](https://docs.vll
     </tr>
     <tr>
       <td>2</td>
-      <td>nm-testing/Pixtral-Large-Instruct-2411-hf-FP8-Dynamic</td>
       <td>1.82</td>
       <td>4.7</td>
       <td>120</td>
@@ -751,7 +751,7 @@ The following performance benchmarks were conducted with [vLLM](https://docs.vll
     </tr>
     <tr>
       <td>2</td>
-      <td>nm-testing/Pixtral-Large-Instruct-2411-hf-quantized.w4a16</td>
       <td>1.87</td>
       <td>4.7</td>
       <td>120</td>
@@ -794,7 +794,7 @@ The following performance benchmarks were conducted with [vLLM](https://docs.vll
   <tbody style="text-align: center">
    <tr>
       <th rowspan="3" valign="top">A100x4</th>
-      <td>nm-testing/Pixtral-Large-Instruct-2411-hf</td>
       <td></td>
       <td>0.4</td>
       <td>222</td>
@@ -804,28 +804,28 @@ The following performance benchmarks were conducted with [vLLM](https://docs.vll
       <td>399</td>
     </tr>
     <tr>
-      <td>nm-testing/Pixtral-Large-Instruct-2411-hf-quantized.w8a8</td>
       <td>1.70</td>
       <td>1.6</td>
-      <td>383</td>
       <td>2.2</td>
-      <td>571</td>
       <td>2.6</td>
-      <td>674</td>
     </tr>
     <tr>
-      <td>nm-testing/Pixtral-Large-Instruct-2411-hf-quantized.w4a16</td>
       <td>1.48</td>
       <td>1.0</td>
-      <td>276</td>
       <td>2.0</td>
-      <td>505</td>
       <td>2.8</td>
-      <td>680</td>
     </tr>
     <tr>
       <<th rowspan="3" valign="top">H100x4</th>
-      <td>nm-testing/Pixtral-Large-Instruct-2411-hf</td>
       <td></td>
       <td>1.0</td>
       <td>284</td>
@@ -835,24 +835,24 @@ The following performance benchmarks were conducted with [vLLM](https://docs.vll
       <td>511</td>
     </tr>
     <tr>
-      <td>nm-testing/Pixtral-Large-Instruct-2411-hf-FP8-Dynamic</td>
       <td>1.61</td>
       <td>3.4</td>
-      <td>467</td>
       <td>5.2</td>
-      <td>726</td>
       <td>6.4</td>
-      <td>908</td>
     </tr>
     <tr>
-      <td>nm-testing/Pixtral-Large-Instruct-2411-hf-quantized.w4a16</td>
       <td>1.33</td>
       <td>2.8</td>
-      <td>393</td>
       <td>4.4</td>
-      <td>634</td>
       <td>5.4</td>
-      <td>764</td>
     </tr>
   </tbody>
 </table>
@@ -861,7 +861,7 @@ The following performance benchmarks were conducted with [vLLM](https://docs.vll
 **QPS: Queries per second.
-**QPD: Queries per dollar, based on on-demand cost at [Lambda Labs](https://lambdalabs.com/service/gpu-cloud) (observed on 2/18/2025).
 ## The Mistral AI Team

 <details>
 <summary>Benchmarking Command</summary>
 ```
+  guidellm --model neuralmagic/Pixtral-Large-Instruct-2411-hf-FP8-dynamic --target "http://localhost:8000/v1" --data-type emulated --data prompt_tokens=<prompt_tokens>,generated_tokens=<generated_tokens>,images=<num_images>,width=<image_width>,height=<image_height> --max seconds 120 --backend aiohttp_server
 ```
 </details>
     <tr>
       <th rowspan="3" valign="top">A100</th>
       <td>4</td>
+      <td>neuralmagic/Pixtral-Large-Instruct-2411-hf</td>
       <td></td>
       <td>7.5</td>
       <td>67</td>
     </tr>
     <tr>
       <td>2</td>
+      <td>neuralmagic/Pixtral-Large-Instruct-2411-hf-quantized.w8a8</td>
       <td>1.86</td>
       <td>8.1</td>
       <td>124</td>
     </tr>
     <tr>
       <td>2</td>
+      <td>neuralmagic/Pixtral-Large-Instruct-2411-hf-quantized.w4a16</td>
       <td>2.52</td>
       <td>6.9</td>
       <td>147</td>
     <tr>
       <th rowspan="3" valign="top">H100</th>
       <td>4</td>
+      <td>neuralmagic/Pixtral-Large-Instruct-2411-hf</td>
       <td></td>
       <td>4.4</td>
       <td>67</td>
     </tr>
     <tr>
       <td>2</td>
+      <td>neuralmagic/Pixtral-Large-Instruct-2411-hf-FP8-Dynamic</td>
       <td>1.82</td>
       <td>4.7</td>
       <td>120</td>
     </tr>
     <tr>
       <td>2</td>
+      <td>neuralmagic/Pixtral-Large-Instruct-2411-hf-quantized.w4a16</td>
       <td>1.87</td>
       <td>4.7</td>
       <td>120</td>
   <tbody style="text-align: center">
    <tr>
       <th rowspan="3" valign="top">A100x4</th>
+      <td>neuralmagic/Pixtral-Large-Instruct-2411-hf</td>
       <td></td>
       <td>0.4</td>
       <td>222</td>
       <td>399</td>
     </tr>
     <tr>
+      <td>neuralmagic/Pixtral-Large-Instruct-2411-hf-quantized.w8a8</td>
       <td>1.70</td>
       <td>1.6</td>
+      <td>766</td>
       <td>2.2</td>
+      <td>1142</td>
       <td>2.6</td>
+      <td>1348</td>
     </tr>
     <tr>
+      <td>neuralmagic/Pixtral-Large-Instruct-2411-hf-quantized.w4a16</td>
       <td>1.48</td>
       <td>1.0</td>
+      <td>552</td>
       <td>2.0</td>
+      <td>1010</td>
       <td>2.8</td>
+      <td>1360</td>
     </tr>
     <tr>
       <<th rowspan="3" valign="top">H100x4</th>
+      <td>neuralmagic/Pixtral-Large-Instruct-2411-hf</td>
       <td></td>
       <td>1.0</td>
       <td>284</td>
       <td>511</td>
     </tr>
     <tr>
+      <td>neuralmagic/Pixtral-Large-Instruct-2411-hf-FP8-Dynamic</td>
       <td>1.61</td>
       <td>3.4</td>
+      <td>905</td>
       <td>5.2</td>
+      <td>1406</td>
       <td>6.4</td>
+      <td>1759</td>
     </tr>
     <tr>
+      <td>neuralmagic/Pixtral-Large-Instruct-2411-hf-quantized.w4a16</td>
       <td>1.33</td>
       <td>2.8</td>
+      <td>761</td>
       <td>4.4</td>
+      <td>1228</td>
       <td>5.4</td>
+      <td>1480</td>
     </tr>
   </tbody>
 </table>
 **QPS: Queries per second.
+**QPD: Queries per dollar, based on on-demand cost at [Lambda Labs](https://lambdalabs.com/service/gpu-cloud) (observed on 2/18/2025).
 ## The Mistral AI Team