ipex-llm

History

Ruonan Wang 081af41def [NPU] Optimize Qwen2 lm_head to use INT4 (#12072 ) * temp save * update * fix * fix * Split lm_head into 7 parts & remove int8 for lm_head when sym_int4 * Simlify and add condition to code * Small fix * refactor some code * fix style * fix style * fix style * fix * fix * temp sav e * refactor * fix style * further refactor * simplify code * meet code review * fix style --------- Co-authored-by: Yuwen Hu <yuwen.hu@intel.com>	2024-09-14 15:26:46 +08:00
..
llm	[NPU] Optimize Qwen2 lm_head to use INT4 (#12072 )	2024-09-14 15:26:46 +08:00

[NPU] Optimize Qwen2 lm_head to use INT4 (#12072 )

* temp save

* update

* fix

* fix

* Split lm_head into 7 parts & remove int8 for lm_head when sym_int4

* Simlify and add condition to code

* Small fix

* refactor some code

* fix style

* fix style

* fix style

* fix

* fix

* temp sav e

* refactor

* fix style

* further refactor

* simplify code

* meet code review

* fix style

---------

Co-authored-by: Yuwen Hu <yuwen.hu@intel.com>

2024-09-14 15:26:46 +08:00

llm

[NPU] Optimize Qwen2 lm_head to use INT4 (#12072 )

2024-09-14 15:26:46 +08:00