Patronus Lynx 部署#
vLLM#
Lynx 是完全开源的,因此您可以随意托管它。一种简单的方法是使用 vLLM。
在 HuggingFace 上获取 Patronus Lynx。请参阅此处,了解 70B 参数变体,以及此处,了解 8B 参数变体。以下示例使用
70B
参数模型,但部署较小模型无需额外配置,因此您可以将模型名称引用替换为8B
。登录到 Hugging Face
huggingface-cli login
安装 vLLM 并启动托管 Patronus Lynx 的服务器
pip install vllm
python -m vllm.entrypoints.openai.api_server --port 5000 --model PatronusAI/Patronus-Lynx-70B-Instruct
这将在 https://:5000/
上启动 vLLM 推理服务器。您可以使用 OpenAI API 规范向其发送 cURL 请求以确保其正常工作
curl https://:5000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "PatronusAI/Patronus-Lynx-70B-Instruct",
"messages": [
{"role": "user", "content": "What is a hallucination?"},
]
}'
在您的
config.yml
文件中创建一个名为patronus_lynx
的模型,将主机和端口设置为您在上面设置的值。如果 vLLM 在与nemoguardrails
不同的服务器上运行,则必须将localhost
替换为 vLLM 服务器的地址。请查看此处的指南,了解更多信息。
Ollama#
您也可以使用 Ollama 在您的个人计算机上运行 Patronus Lynx 8B!
安装 Ollama:https://ollama.ac.cn/download。
在 Huggingface 上获取 Lynx 8B 的 GGUF 量化版本。查看此处。
从存储库此处下载 gguf 模型。这可能需要几分钟时间。
创建一个名为
Modelfile
的文件,其内容如下
FROM "./patronus-lynx-8b-instruct-q4_k_m.gguf"
PARAMETER stop "<|im_start|>"
PARAMETER stop "<|im_end|>"
TEMPLATE """
<|im_start|>system
{{ .System }}<|im_end|>
<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
确保 FROM
字段正确指向您在步骤 3 中下载的 patronus-lynx-8b-instruct-q4_k_m.gguf
文件。
运行
ollama create patronus-lynx-8b -f Modelfile
。运行
ollama run patronus-lynx-8b
。您现在应该能够与patronus-lynx-8b
聊天了!在您的
config.yml
文件中创建一个名为patronus_lynx
的模型,如下所示
models:
...
- type: patronus_lynx
engine: ollama
model: patronus-lynx-8b
parameters:
base_url: "https://:11434"
请查看此处的指南,了解更多信息。