[NPU] Fix load-low-bit benchmark script (#12502)

2024-12-05 10:01:32 +08:00 · 2024-12-05 10:01:32 +08:00 · f56a111aa2
commit f56a111aa2
parent 84f1c4ad57
1 changed files with 7 additions and 5 deletions
--- a/python/llm/dev/benchmark/all-in-one/run.py
+++ b/python/llm/dev/benchmark/all-in-one/run.py
@ -789,6 +789,7 @@ def run_transformer_int4_loadlowbit_npu_win(repo_id,
    load_time = end - st
    print(">> loading of model costs {}s".format(load_time))

+    if not hasattr(model, "model_ptr"):
        model = BenchmarkWrapper(model)

    result = {}
@ -802,6 +803,7 @@ def run_transformer_int4_loadlowbit_npu_win(repo_id,
            # slice the input_ids to ensure the prompt length is required length.
            input_ids = tokenizer.encode(input_str, return_tensors="pt")
            input_ids = input_ids[:, :in_len]
+            if repo_id not in MINICPM_IDS:
                true_str = tokenizer.batch_decode(input_ids)[0]
                input_list = [true_str] * batch_size
                input_ids = tokenizer(input_list, return_tensors="pt").input_ids