ipex-llm

Author	SHA1	Message	Date
Yishuo Wang	7234c9b27b	update quantize kv cache condition (#12681 )	2025-01-09 15:23:04 +08:00
Yishuo Wang	7aaf02f602	refactor baichuan, glm4 and minicpm3 (#12600 )	2024-12-24 14:16:30 +08:00
Yishuo Wang	6f3441ba4c	fix glm4-9b overflow (#12455 )	2024-11-27 17:39:13 +08:00
Yuwen Hu	a69395f31f	Support performance mode of GLM4 model (#12401 ) * Initial support of prepare generation args for transformers 445 * Small fix to chatglm4 model optimization * Small fix * fix glm4 position id * fix glm4 error * Small change in conditon & fix based on comments * Style fixes --------- Co-authored-by: cyita <yitastudy@gmail.com>	2024-11-18 18:46:52 +08:00
Yuwen Hu	1a6cbc473f	Add fused mlp optimizations to glm4 models (#12360 ) * Add fused mlp to glm4 models * Small fix	2024-11-07 18:52:47 +08:00
Yuwen Hu	872a74481a	Small optimization to glm4 models (#12351 )	2024-11-06 19:16:58 +08:00
Yina Chen	3cd4e87168	Support compress KV with quantize KV (#11812 ) * update llama * support llama 4.41 * fix style * support minicpm * support qwen2 * support minicpm & update * support chatglm4 * support chatglm * remove print * add DynamicCompressFp8Cache & support qwen * support llama * support minicpm phi3 * update chatglm2/4 * small fix & support qwen 4.42 * remove print	2024-08-19 15:32:32 +08:00
Yina Chen	7cd6ec9723	MiniCPM-V support compresskv (#11779 ) * fix check error * fix other models * remove print	2024-08-13 19:03:40 +08:00
Yina Chen	841dbcdf3a	Fix compresskv with lookahead issue (#11767 ) * fix compresskv + lookahead attn_mask qwen2 * support llama chatglm * support mistral & chatglm * address comments * revert run.py	2024-08-12 18:53:55 +08:00
Yina Chen	4b9c57cc60	Support compress kv with lookahead (#11752 ) * support compress kv with lookahead * enough kv miss param	2024-08-09 17:39:57 +08:00
Yina Chen	a71ae7c22b	Support minicpm compresskv & modify default compresskv config & default enable compresskv on mtl 2.5k~4.5k (#11726 ) * support minicpm & modify default & default enable on mtl 2.5k~4.5k * fix style	2024-08-07 11:35:39 +08:00
Yina Chen	45c730ff39	Chatglm support compresskv (#11690 ) * chatglm4 support compresskv * fix * fix style * support chatglm2 * fix quantkv conflict * fix style	2024-08-01 18:20:20 +08:00
Yishuo Wang	2929eb262e	support npu glm4 (#11539 )	2024-07-09 15:46:49 +08:00
binbin Deng	9274282ef7	Support pipeline parallel for glm-4-9b-chat (#11463 )	2024-07-03 14:25:28 +08:00
Yishuo Wang	e8dd8e97ef	fix chatglm lookahead on ARC (#11320 )	2024-06-14 16:26:11 +08:00
Yishuo Wang	7f65836cb9	fix chatglm2/3-32k/128k fp16 (#11311 )	2024-06-14 09:58:07 +08:00
Xin Qiu	1b0c4c8cb8	use new rotary two in chatglm4 (#11312 ) * use new rotary two in chatglm4 * rempve	2024-06-13 19:02:18 +08:00
Xin Qiu	f1410d6823	refactor chatglm4 (#11301 ) * glm4 * remove useless code * stype * add rope_ratio * update * fix fp16 * fix style	2024-06-13 18:06:04 +08:00
Xin Qiu	592f7aa61e	Refine glm1-4 sdp (#11276 ) * chatglm * update * update * change chatglm * update sdpa * update * fix style * fix * fix glm * update glm2-32k * update glm2-32k * fix cpu * update * change lower_bound	2024-06-12 17:11:56 +08:00
Xin Qiu	dbc3c2d72d	glm4 sdp (#11253 ) * glm4 sdp * fix style * update comment	2024-06-07 15:42:23 +08:00
Xin Qiu	2f809116e2	optimize Chatglm4 (#11239 ) * chatglm4 * update * update * add rms norm * chatglm4	2024-06-06 18:25:20 +08:00

21 commits