LLM : Update optimize ipex bf16 (#10038)

* use 4.35.2 and remove * update rmsnorm * remove * remove * update python style * update * update python style * update * fix style * update * remove whitespace
2024-01-31 10:59:55 +08:00 · 2024-01-31 10:59:55 +08:00 · 7e5cd42a5c
commit 7e5cd42a5c
parent fb53b994f8
2 changed files with 34 additions and 22 deletions
--- a/python/llm/src/bigdl/llm/transformers/convert.py
+++ b/python/llm/src/bigdl/llm/transformers/convert.py
@ -578,15 +578,16 @@ def _optimize_ipex(model):
    from transformers.modeling_attn_mask_utils import AttentionMaskConverter
    from bigdl.llm.transformers.convert_ipex import (
        _ipex_optimize_attention, _ipex_optimize_decoder, _ipex_jit, _make_causal_mask,
-        _llama_model_forward_4_35
+        _ipex_optimize_rmsnorm, _llama_model_forward_4_35
    )

    AttentionMaskConverter._make_causal_mask = _make_causal_mask
-    convert_forward(model, transformers.models.llama.modeling_llama.LlamaModel, _llama_model_forward_4_35)  # noqa
+    convert_forward(model, transformers.models.llama.modeling_llama.LlamaModel,
+                    _llama_model_forward_4_35)
    model = model_convert_reference(model)
-
-    _ipex_optimize_attention(model, transformers.models.llama.modeling_llama.LlamaAttention)
-    _ipex_optimize_decoder(model, transformers.models.llama.modeling_llama.LlamaDecoderLayer)
+    _ipex_optimize_rmsnorm(model)
+    _ipex_optimize_attention(model)
+    _ipex_optimize_decoder(model)

    model.register_forward_hook(output_hook, with_kwargs=True)

--- a/python/llm/src/bigdl/llm/transformers/convert_ipex.py
+++ b/python/llm/src/bigdl/llm/transformers/convert_ipex.py
@ -75,7 +75,33 @@ def _set_optimized_model_for_generation(
    return model


-def _ipex_optimize_decoder(model, decoder_layer):
+def _ipex_optimize_rmsnorm(_model):
+    from intel_extension_for_pytorch.transformers.models.cpu.fusions.mha_fusion import _IPEXRMSNorm
+    import transformers
+    supported_classes = [
+        transformers.models.llama.modeling_llama.LlamaRMSNorm,
+    ]
+    if _model.config.architectures[0] == "BaichuanForCausalLM":
+        supported_classes.append(type(_model.model.layers[0].input_layernorm))
+    if (
+        _model.config.architectures[0] == "ChatGLMModel"
+        and _model.config.rmsnorm
+    ):
+        supported_classes.append(
+            type(_model.transformer.encoder.layers[0].input_layernorm)
+        )
+    for supported_class in supported_classes:
+        lowering_class_cpu(
+            _model,
+            supported_class,
+            _IPEXRMSNorm,
+            _model.config,
+            tpp=False,
+            woq=False,
+        )
+
+
+def _ipex_optimize_decoder(model):
    from intel_extension_for_pytorch.transformers.models.reference.modules.decoder import (
        _IPEXDecoderLayerRef
    )
@ -91,16 +117,9 @@ def _ipex_optimize_decoder(model, decoder_layer):
            tpp=False,
            woq=False,
        )
-    convert_class(
-        model,
-        decoder_layer,
-        _IPEXDecoderLayerRef,
-        model.config,
-        distributed=True,
-    )


-def _ipex_optimize_attention(model, attention_layer):
+def _ipex_optimize_attention(model):
    from intel_extension_for_pytorch.transformers.models.reference.modules.attentions import (
        _IPEXAttentionRef
    )
@ -116,13 +135,6 @@ def _ipex_optimize_attention(model, attention_layer):
            tpp=False,
            woq=False,
        )
-    convert_class(
-        model,
-        attention_layer,
-        _IPEXAttentionRef,
-        model.config,
-        distributed=True,
-    )


 def _ipex_jit(model):
@ -178,7 +190,6 @@ def _make_causal_mask(

    return mask[None, None, :, :].expand(bsz, 1, tgt_len, tgt_len + past_key_values_length)

-
 from transformers.modeling_outputs import BaseModelOutputWithPast
 from transformers.modeling_attn_mask_utils import _prepare_4d_causal_attention_mask