fix chatglm lookahead on ARC (#11320)

2024-06-14 16:26:11 +08:00 · 2024-06-14 16:26:11 +08:00 · e8dd8e97ef
commit e8dd8e97ef
parent f5ef94046e
2 changed files with 2 additions and 2 deletions
--- a/python/llm/src/ipex_llm/transformers/models/chatglm2.py
+++ b/python/llm/src/ipex_llm/transformers/models/chatglm2.py
@ -244,7 +244,7 @@ def chatglm2_attention_forward(
        key_states[..., :rot_dim] = k_rot[...]

    # IPEX-LLM OPT: kv cache and quantize kv
-    use_quantize_kv = use_quantize_kv_cache(self.query_key_value, hidden_states)
+    use_quantize_kv = use_quantize_kv_cache(self.query_key_value, query_states)
    key_states, value_states = update_past_key_value(
        past_key_value, key_states, value_states,
        kv_seq_len, use_quantize_kv, hidden_states.device
--- a/python/llm/src/ipex_llm/transformers/models/chatglm4.py
+++ b/python/llm/src/ipex_llm/transformers/models/chatglm4.py
@ -171,7 +171,7 @@ def chatglm4_attention_forward(
        key_states[..., :rot_dim] = k_rot[...]

    # IPEX-LLM OPT: kv cache and quantize kv
-    use_quantize_kv = use_quantize_kv_cache(self.query_key_value, hidden_states)
+    use_quantize_kv = use_quantize_kv_cache(self.query_key_value, query_states)
    key_states, value_states = update_past_key_value(
        past_key_value, key_states, value_states,
        kv_seq_len, use_quantize_kv, hidden_states.device