LLM 支持#

我们的目标是在 NeMo Guardrails 中为来自不同提供商的各种 LLM 提供支持,重点是开放模型。但是,由于使用对话 rails 以及大多数预定义的输入和输出 rails(例如,审核或事实核查)所需的任务的复杂性,并非所有 LLM 都足够强大以供使用。

评估实验#

本文档旨在总结我们用于评估各种 LLM 在不同类型 rails 中的性能的评估实验。

有关 guardrails 评估的更多详细信息,包括数据集和定量结果,请阅读 此文档。用于评估的工具在同一文件中进行了描述,有关主题摘要,请阅读用户指南中的此部分。 Guardrails 中提供的任何新 LLM 都应至少使用这组工具进行评估。

LLM 支持和指南#

下表总结了 NeMo Guardrails 主要功能的 LLM 支持,重点介绍了开箱即用的不同 rails。如果您想使用 LLM 并且在 prompts 文件夹中看不到提示,请同时检查在 LLM 示例的配置中定义的配置。

特性

gpt-3.5-turbo-instruct

text-davinci-003

llama-2-13b-chat

falcon-7b-instruct

gpt-3.5-turbo

gpt-4

gpt4all-13b-snoozy

vicuna-7b-v1.3

mpt-7b-instruct

dolly-v2-3b

HF Pipeline 模型

对话 Rails

✔ (0.74)

✔ (0.83)

✔ (0.77)

✔ (0.76)

❗ (0.45)

❗ (0.54)

❗ (0.54)

❗ (0.50)

❗ (0.40)

(取决于模型)

• 单个 LLM 调用

✔ (0.83)

✔ (0.81)

• 多步骤流程生成

实验性

实验性

流式传输

-

-

-

-

-

-

幻觉检测(带有 AskLLM 的 SelfCheckGPT)

AskLLM rails

• 越狱检测

✔ (0.88)

✔ (0.88)

✔ (0.85)

• 输出审核

✔ (0.85)

• 事实核查

✔ (0.81)

✔ (0.82)

✔ (0.80)

✔ (0.83)

(取决于模型)

AlignScore 事实核查(LLM 独立)

✔ (0.89)

ActiveFence 审核(LLM 独立)

Llama Guard 审核(LLM 独立)

Got It AI RAG TruthChecker (LLM 独立)

Patronus Lynx RAG 幻觉检测(LLM 独立)

GCP 文本审核(LLM 独立)

Patronus Evaluate API (LLM 独立)

Fiddler Fast Faitfhulness 幻觉检测(LLM 独立)

Fiddler Fast Safety & 越狱检测(LLM 独立)

表格图例

  • ✔ - 支持(该特性已通过我们的实验和测试获得 LLM 的完全支持

  • ❗ - 有限支持(实验和测试表明 LLM 在该特性上的表现不佳

  • ✖ - 不支持(实验显示性能非常差,或者没有针对 LLM-特性对进行任何实验

  • - - 不适用(例如,模型支持流式传输,这取决于它们的部署方式

上表中报告的每个 LLM-特性对的性能数字如下

  • 银行业数据集评估对话(主题)rails

  • 使用 MSMARCO 数据集进行事实核查和审核 rails 实验。更多详情请参见 评估文档