LLM: Add length check for IPEX-CPU speculative decoding (#10529)

Add length check for IPEX-CPU speculative decoding.
2024-03-26 17:47:10 +08:00 · 2024-03-26 17:47:10 +08:00 · 11550d3f25
commit 11550d3f25
parent a3b007f3b1
1 changed files with 22 additions and 0 deletions
--- a/python/llm/src/ipex_llm/transformers/speculative.py
+++ b/python/llm/src/ipex_llm/transformers/speculative.py
@ -53,6 +53,28 @@ def generate(
    **kwargs,
 ):
    if hasattr(self, "draft_model"):
+        from ipex_llm.llm.transformers.convert import get_enable_ipex
+        _enable_ipex = get_enable_ipex()
+        if _enable_ipex and inputs.size(1) < 256:
+            logger.warning(
+                "IPEX_CPU optimized models have issues for speculative decoding with short prompts"
+                "(length < 256). Using normal generate() method instead."
+            )
+            for var in ['max_step_draft', 'th_stop_draft', 'hf_adjust',
+                        'auto_th_stop_draft', 'auto_parameters', 'min_step_draft',
+                        'th_batch_num']:
+                value = kwargs.pop(var, None)
+            del self.draft_model
+            return original_generate(self,
+                                     inputs=inputs,
+                                     generation_config=generation_config,
+                                     logits_processor=logits_processor,
+                                     stopping_criteria=stopping_criteria,
+                                     prefix_allowed_tokens_fn=prefix_allowed_tokens_fn,
+                                     synced_gpus=synced_gpus,
+                                     assistant_model=assistant_model,
+                                     streamer=streamer,
+                                     **kwargs)
        # do speculative decoding
        # TODO: maybe add other way to double check
        new_speculative_kwargs = {}