Fix npu group size setting of optimize_model=False (#12256)

2024-10-23 17:53:54 +08:00 · 2024-10-23 17:53:54 +08:00 · b685cf4349
commit b685cf4349
parent 567b77a76b
2 changed files with 3 additions and 2 deletions
--- a/python/llm/src/ipex_llm/transformers/npu_model.py
+++ b/python/llm/src/ipex_llm/transformers/npu_model.py
@ -198,7 +198,8 @@ class _BaseAutoModelClass:
            from ipex_llm.transformers.npu_models.convert import optimize_llm
            optimize_llm(model)
            with torch.no_grad():
-                cls.load_convert(qtype, model, "cpu", modules_to_not_convert, *args, **kwargs)
+                cls.load_convert(qtype, model, "cpu", modules_to_not_convert,
+                                 quantization_group_size, *args, **kwargs)
                if hasattr(model, "llm"):
                    create_npu_kernels(model.llm)
                else:
--- a/python/llm/src/ipex_llm/transformers/npu_models/linear.py
+++ b/python/llm/src/ipex_llm/transformers/npu_models/linear.py
@ -130,7 +130,7 @@ class QuantizedLinear(torch.nn.Module):
        weight: torch.Tensor,
        scale: torch.Tensor,
        bias: Optional[torch.Tensor] = None,
-        group_size: int = False,
+        group_size: int = 0,
    ):
        """Initialize the QuantizedLinear class.