[LLM] Fix arc qtype != q4_0 generate issue (#8920)

* Fix arc precision!=q4_0 generate issue * meet comments
2023-09-07 23:56:36 +08:00 · 2023-09-07 23:56:36 +08:00 · b209b8f7b6
commit b209b8f7b6
parent 3d2efe9608
1 changed files with 8 additions and 2 deletions
--- a/python/llm/src/bigdl/llm/transformers/low_bit_linear.py
+++ b/python/llm/src/bigdl/llm/transformers/low_bit_linear.py
@ -98,7 +98,10 @@ def ggml_q_format_convet_cpu2xpu(tensor: torch.Tensor, num_elem: int, qtype: int
    src = ctypes.c_void_p(tensor.data.data_ptr())
-    dst_tensor = torch.empty_like(tensor)
+    if qtype == ggml_tensor_qtype["sym_int4"]:
        dst_tensor = torch.empty_like(tensor)
    else:
        return tensor
    dst = ctypes.c_void_p(dst_tensor.data.data_ptr())
    ggml.ggml_q_format_convet_cpu2xpu(src, dst, num_elem, qtype)
    return dst_tensor
@ -114,7 +117,10 @@ def ggml_q_format_convet_xpu2cpu(tensor: torch.Tensor, num_elem: int, qtype: int
    src = ctypes.c_void_p(tensor.data.data_ptr())
-    dst_tensor = torch.empty_like(tensor)
+    if qtype == ggml_tensor_qtype["sym_int4"]:
        dst_tensor = torch.empty_like(tensor)
    else:
        return tensor
    dst = ctypes.c_void_p(dst_tensor.data.data_ptr())
    ggml.ggml_q_format_convet_xpu2cpu(src, dst, num_elem, qtype)
    return dst_tensor