快速入门 - Qualcomm® AI Hub GenieX

前置条件

已安装 CLI——详见安装。
容器内交互式 shell（仅 Docker）——详见交互式运行。
了解运行环境选择——qairt（Qualcomm AI Engine Direct）用于 Qualcomm AI Hub 模型，llama_cpp 用于任意 GGUF。

语言模型：

windows

geniex infer ai-hub-models/Qwen3-4B

多模态模型：

windows

geniex infer ai-hub-models/Qwen2.5-VL-7B-Instruct

系统提示时请选择 Q4_0——它在 Hexagon NPU 上支持最佳。 语言模型：

windows

geniex infer unsloth/Qwen3.5-0.8B-GGUF

多模态模型：

windows

geniex infer Qwen/Qwen3-VL-2B-Instruct-GGUF

系统提示时请选择：

模型类型——视觉语言模型选 vlm，纯文本模型选 llm。Qwen3.5 与 Gemma4 目前请选 llm（多模态支持即将推出）。
精度（量化）——Q4_0 在 Hexagon NPU 上性能最佳。

如需尝试其他 GGUF 模型，从 Hugging Face 复制任意兼容 GGUF 路径替换上面的命令即可。详见运行 Hugging Face 上的 GGUF 模型。

已有模型文件在本地，或想从 Hugging Face 自行转换模型包？使用 geniex pull 配合 --local-path 注册到缓存，然后像其他模型一样运行。详见：

运行本地 Qualcomm AI Engine Direct 模型包 —— 从 Hugging Face 自行转换、已解压的模型包目录，或 AI Hub .zip。
运行本地 GGUF 模型 —— 包含 .gguf 文件的目录。

在 localhost:18181 暴露兼容 OpenAI 协议的 HTTP API。

各命令及参数。

Was this page helpful?

Yes