Patronus Lynx 部署#

vLLM#

Lynx 是完全开源的,因此您可以随意托管它。一种简单的方法是使用 vLLM。

  1. 在 HuggingFace 上获取 Patronus Lynx。请参阅此处,了解 70B 参数变体,以及此处,了解 8B 参数变体。以下示例使用 70B 参数模型,但部署较小模型无需额外配置,因此您可以将模型名称引用替换为 8B

  2. 登录到 Hugging Face

huggingface-cli login
  1. 安装 vLLM 并启动托管 Patronus Lynx 的服务器

pip install vllm
python -m vllm.entrypoints.openai.api_server --port 5000 --model PatronusAI/Patronus-Lynx-70B-Instruct

这将在 https://:5000/ 上启动 vLLM 推理服务器。您可以使用 OpenAI API 规范向其发送 cURL 请求以确保其正常工作

curl https://:5000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
  "model": "PatronusAI/Patronus-Lynx-70B-Instruct",
  "messages": [
   {"role": "user", "content": "What is a hallucination?"},
  ]
}'
  1. 在您的 config.yml 文件中创建一个名为 patronus_lynx 的模型,将主机和端口设置为您在上面设置的值。如果 vLLM 在与 nemoguardrails 不同的服务器上运行,则必须将 localhost 替换为 vLLM 服务器的地址。请查看此处的指南,了解更多信息。

Ollama#

您也可以使用 Ollama 在您的个人计算机上运行 Patronus Lynx 8B!

  1. 安装 Ollama:https://ollama.ac.cn/download。

  2. 在 Huggingface 上获取 Lynx 8B 的 GGUF 量化版本。查看此处

  3. 从存储库此处下载 gguf 模型。这可能需要几分钟时间。

  4. 创建一个名为 Modelfile 的文件,其内容如下

 FROM "./patronus-lynx-8b-instruct-q4_k_m.gguf"
 PARAMETER stop "<|im_start|>"
 PARAMETER stop "<|im_end|>"
 TEMPLATE """
 <|im_start|>system
 {{ .System }}<|im_end|>
 <|im_start|>user
 {{ .Prompt }}<|im_end|>
 <|im_start|>assistant

确保 FROM 字段正确指向您在步骤 3 中下载的 patronus-lynx-8b-instruct-q4_k_m.gguf 文件。

  1. 运行 ollama create patronus-lynx-8b -f Modelfile

  2. 运行 ollama run patronus-lynx-8b。您现在应该能够与 patronus-lynx-8b 聊天了!

  3. 在您的 config.yml 文件中创建一个名为 patronus_lynx 的模型,如下所示

models:
  ...

  - type: patronus_lynx
    engine: ollama
    model: patronus-lynx-8b
    parameters:
      base_url: "https://:11434"

请查看此处的指南,了解更多信息。