使用 vLLM 自托管 Llama Guard#
下面详细介绍了使用 vLLM 和 HuggingFace 自托管 Llama Guard 的步骤。此外,您也可以使用自己的自定义推理代码和下载的模型权重来实现。
从 HuggingFace 上的 Meta 获取 Llama Guard 模型的访问权限。详情请参阅此页面。
使用您的账户 token 登录 Hugging Face
huggingface-cli login
在这里,我们使用 vLLM 以 OpenAI 兼容模式托管 Llama Guard 推理端点。
pip install vllm
python -m vllm.entrypoints.openai.api_server --port 5123 --model meta-llama/LlamaGuard-7b
这将在 https://:5123/
上启动 vLLM 推理服务器。
在您的 bot 的 YAML 配置文件中设置主机和端口(示例配置)。如果您在另一台服务器上运行
nemoguardrails
应用,请记住将localhost
替换为您的 vLLM 服务器的公共 IP 地址。