update inter_pp of qwen2 (#12041)

2024-09-09 19:34:17 -07:00 · 2024-09-09 19:34:17 -07:00 · 640998edea
commit 640998edea
parent 048b4590aa
1 changed files with 1 additions and 1 deletions
--- a/python/llm/src/ipex_llm/transformers/npu_models/convert_mp.py
+++ b/python/llm/src/ipex_llm/transformers/npu_models/convert_mp.py
@ -156,7 +156,7 @@ def optimize_llm(
        if intra_pp is None:
            intra_pp = 2
        if inter_pp is None:
-            inter_pp = 4 if model.config.intermediate_size == 18944 else 1
+            inter_pp = 2 if model.config.intermediate_size == 18944 else 1

        from ipex_llm.transformers.npu_models.qwen2_mp import gen_qwen2_fused_model_forward
        from ipex_llm.transformers.npu_models.qwen2_mp import DecodeRunner, PrefillRunner