neuralmagic
/

Qwen2.5-VL-3B-Instruct-quantized.w4a16

Image-Text-to-Text

text-generation-inference

compressed-tensors

Model card Files Files and versions Community

Shubhra Pandit commited on Feb 8

Commit

183210a

·

1 Parent(s): 06c60d1

Update model files

Files changed (3) hide show

config.json +2 -2
model.safetensors +1 -1
recipe.yaml +5 -1

config.json CHANGED Viewed

@@ -26,7 +26,7 @@
           "Linear"
         ],
         "weights": {
-          "actorder": null,
           "block_structure": null,
           "dynamic": false,
           "group_size": 128,
@@ -211,7 +211,7 @@
     "quantization_status": "compressed",
     "sparsity_config": {
       "format": "dense",
-      "global_sparsity": 0.1291273641521281,
       "ignore": [
         "visual.blocks.0.attn.qkv",
         "visual.blocks.0.attn.proj",

           "Linear"
         ],
         "weights": {
+          "actorder": "weight",
           "block_structure": null,
           "dynamic": false,
           "group_size": 128,
     "quantization_status": "compressed",
     "sparsity_config": {
       "format": "dense",
+      "global_sparsity": 0.12852197810556548,
       "ignore": [
         "visual.blocks.0.attn.qkv",
         "visual.blocks.0.attn.proj",

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07853553261fc4237824096ec8bd93223ccea164df4fd4b47a483cc6c7837326
 size 4013282536

 version https://git-lfs.github.com/spec/v1
+oid sha256:1811c5fa738747144c60821401a200d4e56339d80377c0c497eb3b341d85ff23
 size 4013282536

recipe.yaml CHANGED Viewed

@@ -3,6 +3,10 @@ DEFAULT_stage:
     GPTQModifier:
       sequential_targets: [Qwen2_5_VLDecoderLayer]
       dampening_frac: 0.01
-      scheme: W4A16
       targets: Linear
       ignore: [lm_head, 're:visual.*']

     GPTQModifier:
       sequential_targets: [Qwen2_5_VLDecoderLayer]
       dampening_frac: 0.01
+      config_groups:
+        config_group:
+          targets: [Linear]
+          weights: {num_bits: 4, type: int, symmetric: true, group_size: 128, strategy: group,
+            dynamic: false, actorder: weight, observer: minmax}
       targets: Linear
       ignore: [lm_head, 're:visual.*']