ipex-llm/docs/mddocs/Quickstart/ollama_portablze_zip_quickstart.zh-CN.md
SONG Ge 5d041f9ebf
Add latest models list in ollama quickstart (#12850)
* Add latest models llist on ollama quickstart

* update oneapi version describe

* move models list to ollama_portable_zip doc

* update CN readme
2025-02-19 18:29:43 +08:00

5.2 KiB
Raw Blame History

使用 IPEX-LLM 在 Intel GPU 上运行 Ollama Portable Zip

< English | 中文 >

本指南演示如何使用 Ollama portable zip 通过 ipex-llm 在 Intel GPU 上直接免安装运行 Ollama。

Note

目前IPEX-LLM 仅在 Windows 上提供 Ollama portable zip。

目录

系统环境准备

检查你的 GPU 驱动程序版本,并根据需要进行更新:

  • 对于 Intel Core Ultra processors (Series 2) 或者 Intel Arc B-Series GPU我们推荐将你的 GPU 驱动版本升级到最新版本

  • 对于其他的 Intel 核显和独显,我们推荐使用 GPU 驱动版本 32.0.101.6078

步骤 1下载和解压

从此链接下载 IPEX-LLM Ollama portable zip。

然后,将 zip 文件解压到一个文件夹中。

步骤 2启动 Ollama Serve

在解压后的文件夹中双击 start-ollama.bat 即可启动 Ollama Serve。随后会弹出一个窗口如下所示

步骤 3运行 Ollama

在 Intel GPUs 上使用 Ollama 运行 LLMs如下所示

  • 打开命令提示符cmd并通过在命令行输入指令 cd /d PATH\TO\EXTRACTED\FOLDER 进入解压后的文件夹
  • 在命令提示符中运行 `ollama run deepseek-r1:7可以将当前模型替换为你需要的模型

提示和故障排除

通过切换源提升模型下载速度

Ollama 默认从 Ollama 库 下载模型。在 运行 Ollama 之前设置环境变量 IPEX_LLM_MODEL_SOURCEmodelscope/ollama,你可以切换模型的首选下载源。

例如,如果你想运行 deepseek-r1:7b 但从 Ollama 库的下载速度较慢,可以通过如下方式改用 ModelScope模型源

  • 打开 “命令提示符”cmd并通过 cd /d PATH\TO\EXTRACTED\FOLDER 命令进入解压后的文件夹
  • 在 “命令提示符” 中运行 set IPEX_LLM_MODEL_SOURCE=modelscope
  • 运行 ollama run deepseek-r1:7b

Tip

使用 set IPEX_LLM_MODEL_SOURCE=modelscope 下载的模型,在执行 ollama list 时仍会显示实际的模型 ID例如

NAME                                                             ID              SIZE      MODIFIED
modelscope.cn/unsloth/DeepSeek-R1-Distill-Qwen-7B-GGUF:Q4_K_M    f482d5af6aec    4.7 GB    About a minute ago

除了 ollama runollama pull,其他操作中模型应通过其实际 ID 进行识别,例如: ollama rm modelscope.cn/unsloth/DeepSeek-R1-Distill-Qwen-7B-GGUF:Q4_K_M

在 Ollama 中增加上下文长度

默认情况下Ollama 使用 2048 个 token 的上下文窗口运行模型。也就是说,模型最多能 “记住” 2048 个 token 的上下文。

要增加上下文长度,可以在 启动 Ollama serve 之前设置环境变量 IPEX_LLM_NUM_CTX,步骤如下:

  • 打开 “命令提示符”cmd并通过 cd /d PATH\TO\EXTRACTED\FOLDER 命令进入解压后的文件夹
  • 在 “命令提示符” 中将 IPEX_LLM_NUM_CTX 设置为所需长度,例如:set IPEX_LLM_NUM_CTX=16384
  • 通过运行 start-ollama.bat 启动 Ollama serve

Tip

IPEX_LLM_NUM_CTX 的优先级高于模型 Modelfile 中设置的 num_ctx

Ollama v0.5.4 之后支持的其他模型

当前的 Ollama Portable Zip 基于 Ollama v0.5.4;此外,以下新模型也已在 Ollama Portable Zip 中得到支持:

模型 下载 模型链接
DeepSeek-R1 ollama run deepseek-r1 deepseek-r1
Openthinker ollama run openthinker openthinker
DeepScaleR ollama run deepscaler deepscaler
Phi-4 ollama run phi4 phi4
Dolphin 3.0 ollama run dolphin3 dolphin3
Smallthinker ollama run smallthinker smallthinker
Granite3.1-Dense ollama run granite3-dense granite3.1-dense
Granite3.1-Moe-3B ollama run granite3-moe granite3.1-moe