Add Portable zip Linux QuickStart (#12849 )

* linux doc

* update

* Update ollama_portablze_zip_quickstart.md

* Update ollama_portablze_zip_quickstart.md

* Update ollama_portablze_zip_quickstart.zh-CN.md

* Update ollama_portablze_zip_quickstart.md

* meet code review

* update

* Add tips & troubleshooting sections for both Linux & Windows

* Rebase

* Fix based on comments

* Small fix

* Fix img

* Update table for linux

* Small fix

---------

Co-authored-by: Yuwen Hu <yuwen.hu@intel.com>

2025-02-19 19:13:55 +08:00

7 KiB

Raw Blame History

使用 IPEX-LLM 在 Intel GPU 上运行 Ollama Portable Zip

< English | 中文 >

本指南演示如何使用 Ollama portable zip 通过 ipex-llm 在 Intel GPU 上直接免安装运行 Ollama。

Windows用户指南

系统环境准备

检查你的 GPU 驱动程序版本，并根据需要进行更新：

对于 Intel Core Ultra processors (Series 2) 或者 Intel Arc B-Series GPU，我们推荐将你的 GPU 驱动版本升级到最新版本
对于其他的 Intel 核显和独显，我们推荐使用 GPU 驱动版本 32.0.101.6078

步骤 1：下载和解压

从此链接下载 IPEX-LLM Ollama portable zip。

然后，将 zip 文件解压到一个文件夹中。

步骤 2：启动 Ollama Serve

在解压后的文件夹中双击 start-ollama.bat 即可启动 Ollama Serve。随后会弹出一个窗口，如下所示：

步骤 3：运行 Ollama

在 Intel GPUs 上使用 Ollama 运行 LLMs，如下所示：

打开命令提示符（cmd），并通过在命令行输入指令 cd /d PATH\TO\EXTRACTED\FOLDER 进入解压后的文件夹
在命令提示符中运行 ollama run deepseek-r1:7b（可以将当前模型替换为你需要的模型）

提示和故障排除

通过切换源提升模型下载速度

Ollama 默认从 Ollama 库下载模型。通过在运行 Ollama 之前设置环境变量 IPEX_LLM_MODEL_SOURCE 为 modelscope/ollama，你可以切换模型的首选下载源。

例如，如果你想运行 deepseek-r1:7b 但从 Ollama 库的下载速度较慢，可以通过如下方式改用 ModelScope 上的模型源：

打开命令提示符（cmd），并通过 cd /d PATH\TO\EXTRACTED\FOLDER 命令进入解压后的文件夹
在命令提示符中运行 set IPEX_LLM_MODEL_SOURCE=modelscope
运行 ollama run deepseek-r1:7b

Tip

使用 set IPEX_LLM_MODEL_SOURCE=modelscope 下载的模型，在执行 ollama list 时仍会显示实际的模型 ID，例如：
NAME                                                             ID              SIZE      MODIFIED
modelscope.cn/unsloth/DeepSeek-R1-Distill-Qwen-7B-GGUF:Q4_K_M    f482d5af6aec    4.7 GB    About a minute ago
除了 ollama run 和 ollama pull，其他操作中模型应通过其实际 ID 进行识别，例如： ollama rm modelscope.cn/unsloth/DeepSeek-R1-Distill-Qwen-7B-GGUF:Q4_K_M

在 Ollama 中增加上下文长度

默认情况下，Ollama 使用 2048 个 token 的上下文窗口运行模型。也就是说，模型最多能 “记住” 2048 个 token 的上下文。

要增加上下文长度，可以在启动 Ollama serve 之前设置环境变量 IPEX_LLM_NUM_CTX，步骤如下：

打开命令提示符（cmd），并通过 cd /d PATH\TO\EXTRACTED\FOLDER 命令进入解压后的文件夹
在命令提示符中将 IPEX_LLM_NUM_CTX 设置为所需长度，例如：set IPEX_LLM_NUM_CTX=16384
通过运行 start-ollama.bat 启动 Ollama serve

Tip

IPEX_LLM_NUM_CTX 的优先级高于模型 Modelfile 中设置的 num_ctx。

Ollama v0.5.4 之后支持的其他模型

当前的 Ollama Portable Zip 基于 Ollama v0.5.4；此外，以下新模型也已在 Ollama Portable Zip 中得到支持：

模型	下载	模型链接
DeepSeek-R1	`ollama run deepseek-r1`	deepseek-r1
Openthinker	`ollama run openthinker`	openthinker
DeepScaleR	`ollama run deepscaler`	deepscaler
Phi-4	`ollama run phi4`	phi4
Dolphin 3.0	`ollama run dolphin3`	dolphin3
Smallthinker	`ollama run smallthinker`	smallthinker
Granite3.1-Dense	`ollama run granite3-dense`	granite3.1-dense
Granite3.1-Moe-3B	`ollama run granite3-moe`	granite3.1-moe

Linux用户指南

系统环境准备

检查你的 GPU 驱动程序版本，并根据需要进行更新：

对于消费级显卡用户，如A系列，B系列和集成显卡，我们推荐按照消费级显卡驱动安装指南来安装您的显卡驱动。

步骤 1：下载和解压

从此链接下载 IPEX-LLM Ollama portable tgz。

然后，开启一个终端，输入如下命令将 tgz 文件解压到一个文件夹中。

cd PATH/TO/DOWNLOADED/TGZ
tar xvf [Downloaded tgz file]

步骤 2：启动 Ollama Serve

进入解压后的文件夹，执行./start-ollama.sh启动 Ollama Serve：

[可选操作] 对于有多块显卡的用户，请编辑解压后文件夹中的 start-ollama.sh，并根据机器配置修改 ONEAPI_DEVICE_SELECTOR。默认情况下，Ollama 会使用所有显卡。

 cd PATH/TO/EXTRACTED/FOLDER
./start-ollama.sh

步骤 3：运行 Ollama

在 Intel GPUs 上使用 Ollama 运行大语言模型，如下所示：

打开另外一个终端，并输入指令 cd PATH/TO/EXTRACTED/FOLDER 进入解压后的文件夹
在终端中运行 ./ollama run deepseek-r1:7b（可以将当前模型替换为你需要的模型）

7 KiB Raw Blame History Unescape Escape

使用 IPEX-LLM 在 Intel GPU 上运行 Ollama Portable Zip

目录

Windows用户指南

系统环境准备

步骤 1：下载和解压

步骤 2：启动 Ollama Serve

步骤 3：运行 Ollama

提示和故障排除

通过切换源提升模型下载速度

在 Ollama 中增加上下文长度

Ollama v0.5.4 之后支持的其他模型

Linux用户指南

系统环境准备

步骤 1：下载和解压

步骤 2：启动 Ollama Serve

步骤 3：运行 Ollama

7 KiB

Raw Blame History