Modify example from fp32 to fp16 (#10528)

* Modify example from fp32 to fp16 * Remove Falcon from fp16 example for now * Remove MPT from fp16 example
2024-04-09 00:45:49 -07:00 · 2024-04-09 00:45:49 -07:00 · 1e27e08322
commit 1e27e08322
parent 44922bb5c2
7 changed files with 7 additions and 7 deletions
--- a/python/llm/example/GPU/HF-Transformers-AutoModels/Model/baichuan2/generate.py
+++ b/python/llm/example/GPU/HF-Transformers-AutoModels/Model/baichuan2/generate.py
@ -51,7 +51,7 @@ if __name__ == '__main__':
                                                 load_in_4bit=True,
                                                 trust_remote_code=True,
                                                 use_cache=True)
-    model = model.to('xpu')
+    model = model.half().to('xpu')

    # Load tokenizer
    tokenizer = AutoTokenizer.from_pretrained(model_path,
--- a/python/llm/example/GPU/HF-Transformers-AutoModels/Model/chatglm2/generate.py
+++ b/python/llm/example/GPU/HF-Transformers-AutoModels/Model/chatglm2/generate.py
@ -48,7 +48,7 @@ if __name__ == '__main__':
                                      optimize_model=True,
                                      trust_remote_code=True,
                                      use_cache=True)
-    model = model.to('xpu')
+    model = model.half().to('xpu')

    # Load tokenizer
    tokenizer = AutoTokenizer.from_pretrained(model_path,
--- a/python/llm/example/GPU/HF-Transformers-AutoModels/Model/chatglm3/generate.py
+++ b/python/llm/example/GPU/HF-Transformers-AutoModels/Model/chatglm3/generate.py
@ -48,7 +48,7 @@ if __name__ == '__main__':
                                      optimize_model=True,
                                      trust_remote_code=True,
                                      use_cache=True)
-    model = model.to('xpu')
+    model = model.half().to('xpu')

    # Load tokenizer
    tokenizer = AutoTokenizer.from_pretrained(model_path,
--- a/python/llm/example/GPU/HF-Transformers-AutoModels/Model/llama2/generate.py
+++ b/python/llm/example/GPU/HF-Transformers-AutoModels/Model/llama2/generate.py
@ -61,7 +61,7 @@ if __name__ == '__main__':
                                                 optimize_model=True,
                                                 trust_remote_code=True,
                                                 use_cache=True)
-    model = model.to('xpu')
+    model = model.half().to('xpu')

    # Load tokenizer
    tokenizer = LlamaTokenizer.from_pretrained(model_path, trust_remote_code=True)
--- a/python/llm/example/GPU/HF-Transformers-AutoModels/Model/mistral/generate.py
+++ b/python/llm/example/GPU/HF-Transformers-AutoModels/Model/mistral/generate.py
@ -47,7 +47,7 @@ if __name__ == '__main__':
                                                 optimize_model=True,
                                                 trust_remote_code=True,
                                                 use_cache=True)
-    model = model.to('xpu')
+    model = model.half().to('xpu')

    # Load tokenizer
    tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
--- a/python/llm/example/GPU/HF-Transformers-AutoModels/Model/qwen/generate.py
+++ b/python/llm/example/GPU/HF-Transformers-AutoModels/Model/qwen/generate.py
@ -54,7 +54,7 @@ if __name__ == '__main__':
                                                 optimize_model=True,
                                                 trust_remote_code=True,
                                                 use_cache=True)
-    model = model.to('xpu')
+    model = model.half().to('xpu')

    # Load tokenizer
    tokenizer = AutoTokenizer.from_pretrained(model_path,
--- a/python/llm/example/GPU/HF-Transformers-AutoModels/Model/qwen1.5/generate.py
+++ b/python/llm/example/GPU/HF-Transformers-AutoModels/Model/qwen1.5/generate.py
@ -44,7 +44,7 @@ if __name__ == '__main__':
    model = AutoModelForCausalLM.from_pretrained(model_path,
                                                 load_in_4bit=True,
                                                 trust_remote_code=True)
-    model = model.to("xpu")
+    model = model.half().to("xpu")

    # Load tokenizer
    tokenizer = AutoTokenizer.from_pretrained(model_path,