前置条件
SDK 与 Hugging Facetransformers 设计一致——通过 AutoModelForCausalLM.from_pretrained() 加载,再调用 .generate()。
LLM 推理(GGUF)
任意来自 Hugging Face 的 GGUF 模型均可通过llama_cpp 运行。模型权重在首次使用时自动下载。
LLM 推理(QAIRT)
来自 Qualcomm AI Hub 的预编译模型包通过qairt 运行环境完全在 Hexagon NPU 上运行。使用 device_map="qairt"(或 "npu")。模型权重在首次使用时自动下载。
VLM 推理(QAIRT)
首先下载示例图片:Jupyter Notebook 教程
笔记本电脑用户可参考 examples/python/windows.ipynb 中的逐步 Jupyter Notebook,覆盖环境配置与端到端推理。下一步
API 参考
Python SDK 的全部类、方法与参数。
模型
支持的模型、Hugging Face 上的 GGUF,以及自行转换的 Qualcomm AI Engine Direct 模型包。
Was this page helpful?