Update optimize_model=True in llama2 chatglm2 arc examples (#8878)

* add optimize_model=True in llama2 chatglm2 examples * add ipex optimize in gpt-j example
2023-09-05 10:35:37 +08:00 · 2023-09-05 10:35:37 +08:00 · 74a2c2ddf5
commit 74a2c2ddf5
parent 5e58f698cd
4 changed files with 3 additions and 2 deletions
--- a/python/llm/example/gpu/chatglm2/generate.py
+++ b/python/llm/example/gpu/chatglm2/generate.py
@ -44,7 +44,7 @@ if __name__ == '__main__':
    # which convert the relevant layers in the model into INT4 format
    model = AutoModel.from_pretrained(model_path,
                                      load_in_4bit=True,
-                                      optimize_model=False,
+                                      optimize_model=True,
                                      trust_remote_code=True)
    model = model.to('xpu')

--- a/python/llm/example/transformers/transformers_int4/GPU/gpt-j/generate.py
+++ b/python/llm/example/transformers/transformers_int4/GPU/gpt-j/generate.py
@ -45,6 +45,7 @@ if __name__ == '__main__':
                                                 optimize_model=False,
                                                 trust_remote_code=True)
    model = model.to('xpu')
+    model = ipex.optimize(model.eval(), dtype="float16", inplace=True)

    # Load tokenizer
    tokenizer = AutoTokenizer.from_pretrained(model_path,
--- a/python/llm/example/transformers/transformers_int4/GPU/gpt-j/readme.md
+++ b/python/llm/example/transformers/transformers_int4/GPU/gpt-j/readme.md
--- a/python/llm/example/gpu/llama2/generate.py
+++ b/python/llm/example/gpu/llama2/generate.py
@ -57,7 +57,7 @@ if __name__ == '__main__':
    # which convert the relevant layers in the model into INT4 format
    model = AutoModelForCausalLM.from_pretrained(model_path,
                                                 load_in_4bit=True,
-                                                 optimize_model=False,
+                                                 optimize_model=True,
                                                 trust_remote_code=True)
    model = model.to('xpu')