跳转到主要内容

前置条件

  • 已安装 CLI——详见安装
  • 容器内交互式 shell(仅 Docker)——详见交互式运行
  • 了解运行环境选择——qairt(Qualcomm AI Engine Direct)用于 Qualcomm AI Hub 模型,llama_cpp 用于任意 GGUF。

运行你的第一个模型

Qualcomm AI Engine Direct 运行环境(Qualcomm AI Hub)

语言模型:
windows
geniex infer ai-hub-models/Qwen3-4B
多模态模型:
windows
geniex infer ai-hub-models/Qwen2.5-VL-7B-Instruct

llama.cpp 运行环境(GGUF)

系统提示时请选择 Q4_0——它在 Hexagon NPU 上支持最佳。 语言模型:
windows
geniex infer unsloth/Qwen3.5-0.8B-GGUF
多模态模型:
windows
geniex infer Qwen/Qwen3-VL-2B-Instruct-GGUF
系统提示时请选择:
  • 模型类型——视觉语言模型选 vlm,纯文本模型选 llmQwen3.5Gemma4 目前请选 llm(多模态支持即将推出)。
  • 精度(量化)——Q4_0 在 Hexagon NPU 上性能最佳。
如需尝试其他 GGUF 模型,从 Hugging Face 复制任意兼容 GGUF 路径替换上面的命令即可。详见运行 Hugging Face 上的 GGUF 模型

运行本地模型

已有模型文件在本地,或想从 Hugging Face 自行转换模型包?使用 geniex pull 配合 --local-path 注册到缓存,然后像其他模型一样运行。详见:

下一步

本地服务器

localhost:18181 暴露兼容 OpenAI 协议的 HTTP API。

CLI 参考

各命令及参数。