使用 llama.cpp 在 Astra 上运行 LLM
本教程将指导你如何在 Synaptics Astra™ Machina™ 上使用 SL1680 处理器,原生运行 TinyLlama 模型,使用 llama.cpp。
备注
本教程兼容所有 SL16xx 开发板。尽管推理性能可能有所不同,但步骤在所有处理器上均相同。
此外,llama.cpp 不仅支持 LLaMA 模型;它还支持诸如 Phi3、Mistral、TinyLlama 等其他模型,使其成为多种机器学习应用的多功能工具。
在 官方 GitHub 仓库 查看更多 llama.cpp 的详细信息。
先决条件
你可以在 Machina 开发板上原生编译该二进制文件,因为我们在 OOBE(开箱即用)镜像 v1.2.0 及以上版本中已支持所需的软件包和编译器。
如果你更喜欢交叉编译(在主机上构建二进制文件以便自定义),请按照 交叉编译 llama.cpp 教程中的步骤操作。
第一步:生成 llama.cpp 的二进制文件
你可以在 Machina 上原生生成 llama.cpp 的二进制文件,只需在 Machina 上打开终端或通过 SSH 连接 Machina,然后从 GitHub 克隆 llama.cpp 仓库并构建 llama-cli 二进制文件:
llama-cli 的二进制文件将被创建在 ~/build/bin/ 目录下。这个二进制文件将帮助你运行支持的模型。
第二步:下载 llama.cpp 支持的模型
你可以运行任何在 llama.cpp GitHub Repo 仓库 支持模型部分提到的模型。确保它们采用 GGUF 格式。
你可以从 Hugging Face. 获取 TinyLlama 1.1 Billion 模型。在本教程中,我们将使用 TinyLlama 的量化模型 tinyllama-1.1b-chat-v1.0.Q4_0.gguf。请将其下载到开发板上。
wget https://huggingface.co/TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF/resolve/main/tinyllama-1.1b-chat-v1.0.Q4_0.gguf