前置条件
- 已安装 CLI——详见安装。
- 容器内交互式 shell(仅 Docker)——详见交互式运行。
- 了解运行环境选择——
qairt(Qualcomm AI Engine Direct)用于 Qualcomm AI Hub 模型,llama_cpp用于任意 GGUF。
运行你的第一个模型
Qualcomm AI Engine Direct 运行环境(Qualcomm AI Hub)
语言模型:windows
windows
llama.cpp 运行环境(GGUF)
系统提示时请选择Q4_0——它在 Hexagon NPU 上支持最佳。
语言模型:
windows
windows
- 模型类型——视觉语言模型选
vlm,纯文本模型选llm。Qwen3.5与Gemma4目前请选llm(多模态支持即将推出)。 - 精度(量化)——
Q4_0在 Hexagon NPU 上性能最佳。
运行本地模型
已有模型文件在本地,或想从 Hugging Face 自行转换模型包?使用geniex pull 配合 --local-path 注册到缓存,然后像其他模型一样运行。详见:
- 运行本地 Qualcomm AI Engine Direct 模型包 —— 从 Hugging Face 自行转换、已解压的模型包目录,或 AI Hub
.zip。 - 运行本地 GGUF 模型 —— 包含
.gguf文件的目录。
下一步
本地服务器
在
localhost:18181 暴露兼容 OpenAI 协议的 HTTP API。CLI 参考
各命令及参数。
Was this page helpful?