fix qqq quant error (#1498)

ZX-ModelCloud · web-flow · commit ca9d634db6a9 · 2025-04-02T19:04:20.000+08:00
Signed-off-by: ZX-ModelCloud &lt;zx@modelcloud.ai&gt;
diff --git a/gptqmodel/looper/qqq_processor.py b/gptqmodel/looper/qqq_processor.py
@@ -25,7 +25,7 @@
 from ..looper.named_module import NamedModule
 from ..models import BaseGPTQModel
 from ..models.writer import (PROCESS_LOG_FWD_TIME, PROCESS_LOG_LAYER, PROCESS_LOG_MODULE,
-                             PROCESS_LOG_NAME, PROCESS_LOG_TIME, QUANT_LOG_DAMP, QUANT_LOG_LOSS)
+                             PROCESS_LOG_NAME, PROCESS_LOG_TIME, QUANT_LOG_DAMP, QUANT_LOG_LOSS, QUANT_LOG_NSAMPLES)
 from ..quantization.config import QUANT_METHOD, QuantizeConfig
 from ..quantization.gptq import CPU
 from ..quantization.qqq import QQQ
@@ -121,7 +121,7 @@ def process(self, module: NamedModule):
         # logger.info(f"Quantizing module START: {name}, {gptq[name].shape()}")
         ## Need to return the quantized_weight for offloading
         g = gptq[module.name]
-        wq, scale, zero, g_idx, duration, avg_loss, damp_percent, scale_extra = g.quantize()
+        wq, scale, zero, g_idx, duration, avg_loss, damp_percent, scale_extra, nsamples = g.quantize()
         ## Assign the quantized weight to the weight
         #gptq[name].layer.weight.data = q_full_weight.to(device=gptq[name].device)
 
@@ -151,6 +151,7 @@ def process(self, module: NamedModule):
             PROCESS_LOG_LAYER: module.layer_index,
             PROCESS_LOG_MODULE: module.name,
             QUANT_LOG_LOSS: f"{avg_loss:.5f}",
+            QUANT_LOG_NSAMPLES: f"{nsamples}",
             QUANT_LOG_DAMP: f"{damp_percent:.5f}",
             PROCESS_LOG_TIME: f"{duration:.3f}",
             PROCESS_LOG_FWD_TIME: f"{self.fwd_time:.3f}",
diff --git a/gptqmodel/quantization/qqq.py b/gptqmodel/quantization/qqq.py
@@ -15,7 +15,7 @@ def quantize(
         self,
         blocksize=128,
     ):
-        wq, scale, zero, g_idx, duration, avg_loss, damp_percent = super().quantize(blocksize=blocksize)
+        wq, scale, zero, g_idx, duration, avg_loss, damp_percent, nsamples = super().quantize(blocksize=blocksize)
 
         # post int8 quant
         scale_extra = None
@@ -32,4 +32,4 @@ def quantize(
             )
             quantizer_extra.find_params(self.module.weight.data.clone(), weight=True)
             scale_extra = quantizer_extra.scale
-        return wq, scale, zero, g_idx, duration, avg_loss, damp_percent, scale_extra
+        return wq, scale, zero, g_idx, duration, avg_loss, damp_percent, scale_extra, nsamples