CLI 参考 - Qualcomm® AI Hub GenieX

模型推理

`geniex pull`

下载模型并存储到本地。

geniex pull <model-name>[:<precision>]

标志	说明
`--model-hub`	模型来源：`aihub` \| `hf` \| `localfs`。省略时自动检测。
`--local-path`	本地目录或 AI Hub `.zip` 文件的路径。隐含 `--model-hub localfs`。
`--model-type`	模型类型：`llm` \| `vlm`。省略时自动检测。

从本地路径拉取：

geniex pull local/my-model --local-path /path/to/model-dir

pull 会将文件复制到 GenieX 缓存。拉取成功后可安全删除源文件，避免保留两份副本。

精度（量化）（仅 llama.cpp） 对于 GGUF 模型，CLI 会提示选择精度：

Choose a precision version to download
> Q4_0       [1.2 GiB] (default)
  Q8_0       [2.0 GiB]
  F16        [3.8 GiB]

Q4_0 在 Hexagon NPU 上支持最佳。详见支持的精度（量化）。

Qualcomm AI Hub 模型已预量化——无需选择。

`geniex infer` — LLM

启动与语言模型的交互式对话。

geniex infer ai-hub-models/Qwen3-4B

思考模式——控制模型是否在回复前展示推理过程：

geniex infer ai-hub-models/Qwen3-4B --think         # show reasoning steps
geniex infer ai-hub-models/Qwen3-4B --think=false   # respond directly

计算单元选择（通过 --compute）——选择运行模型的计算单元（默认：npu）：

# llama.cpp models support all compute units
geniex infer unsloth/Qwen3.5-0.8B-GGUF --compute npu
geniex infer unsloth/Qwen3.5-0.8B-GGUF --compute gpu
geniex infer unsloth/Qwen3.5-0.8B-GGUF --compute cpu

# Qualcomm AI Hub Models only support NPU
geniex infer ai-hub-models/Qwen3-4B --compute npu

Qualcomm AI Hub 模型仅在 NPU 上运行。使用 --compute cpu 或 --compute gpu 会返回错误。

`geniex infer` — VLM

运行视觉语言模型推理，支持纯文本或图像输入：

geniex infer ai-hub-models/Qwen2.5-VL-7B-Instruct-GGUF

如果只需文本输入，直接启动并对话即可。若要使用图像输入，请提供绝对路径或将图片文件直接拖入终端：

Describe this picture </full/path/to/image.png>

`geniex serve`

启动兼容 OpenAI 协议的本地服务器。API 详见本地服务器。

geniex serve

配置标志

以下标志可传给 geniex infer，用于控制模型加载与生成行为。

采样器标志

控制模型在生成时如何选择 token。

标志	类型	默认值	说明
`--temperature`	float	—	采样温度。值越高随机性越大。
`--top-p`	float	—	Top-p（核采样）阈值。
`--top-k`	int	—	Top-k 采样。仅考虑概率最高的 k 个 token。
`--min-p`	float	—	Min-p 采样阈值。
`--repetition-penalty`	float	`1`	重复惩罚。值 > 1 减少重复。
`--presence-penalty`	float	—	对已出现过的 token 进行惩罚。
`--frequency-penalty`	float	—	按频率比例惩罚 token。
`--seed`	int	—	随机种子，用于可复现输出。
`--grammar-path`	string	—	GBNF 语法文件路径，用于约束生成。
`--grammar-string`	string	—	内联 GBNF 格式语法字符串。
`--enable-json`	—	—	强制仅输出 JSON。

模型标志

控制模型加载、上下文与生成限制。

标志	类型	默认值	说明
`-n`, `--ngl`	int	`999`	卸载到 GPU 的层数。
`--nctx`	int	`4096`	上下文窗口大小（最大输入 + 输出 token 数）。
`--max-tokens`	int	`2048`	每次响应生成的最大 token 数。
`--stop`	string[]	—	停止序列（可多次指定）。
`--stop-file`	string	—	包含停止序列的文件（每行一个）。
`--think` / `--think=false`	bool	`true`	启用或禁用推理模型的思考模式。
`-s`, `--system-prompt`	string	—	设置模型行为的系统提示。

实用命令

命令	说明	示例
`geniex list`	显示所有已下载模型的名称与大小。	`geniex list`
`geniex remove <model>`	按名称删除指定的本地模型。	`geniex remove unsloth/Qwen3-0.6B-GGUF`
`geniex clean`	删除所有本地缓存的模型。	`geniex clean`
`geniex infer -h`	显示 `geniex infer` 的帮助信息。	`geniex infer -h`
`geniex serve -h`	显示 `geniex serve` 的帮助信息。	`geniex serve -h`

Was this page helpful?

Yes

​模型推理

​geniex pull

​geniex infer — LLM

​geniex infer — VLM

​geniex serve

​配置标志

​采样器标志

​模型标志

​实用命令

模型推理

`geniex pull`

`geniex infer` — LLM

`geniex infer` — VLM

`geniex serve`

配置标志

采样器标志

模型标志

实用命令