LLM 支持#
我们的目标是在 NeMo Guardrails 中为来自不同提供商的各种 LLM 提供支持,重点是开放模型。但是,由于使用对话 rails 以及大多数预定义的输入和输出 rails(例如,审核或事实核查)所需的任务的复杂性,并非所有 LLM 都足够强大以供使用。
评估实验#
本文档旨在总结我们用于评估各种 LLM 在不同类型 rails 中的性能的评估实验。
有关 guardrails 评估的更多详细信息,包括数据集和定量结果,请阅读 此文档。用于评估的工具在同一文件中进行了描述,有关主题摘要,请阅读用户指南中的此部分。 Guardrails 中提供的任何新 LLM 都应至少使用这组工具进行评估。
LLM 支持和指南#
下表总结了 NeMo Guardrails 主要功能的 LLM 支持,重点介绍了开箱即用的不同 rails。如果您想使用 LLM 并且在 prompts 文件夹中看不到提示,请同时检查在 LLM 示例的配置中定义的配置。
特性 |
gpt-3.5-turbo-instruct |
text-davinci-003 |
llama-2-13b-chat |
falcon-7b-instruct |
gpt-3.5-turbo |
gpt-4 |
gpt4all-13b-snoozy |
vicuna-7b-v1.3 |
mpt-7b-instruct |
dolly-v2-3b |
HF Pipeline 模型 |
---|---|---|---|---|---|---|---|---|---|---|---|
对话 Rails |
✔ (0.74) |
✔ (0.83) |
✔ (0.77) |
✔ (0.76) |
❗ (0.45) |
❗ |
❗ (0.54) |
❗ (0.54) |
❗ (0.50) |
❗ (0.40) |
❗ (取决于模型) |
• 单个 LLM 调用 |
✔ (0.83) |
✔ (0.81) |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
• 多步骤流程生成 |
实验性 |
实验性 |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
流式传输 |
✔ |
✔ |
- |
- |
✔ |
✔ |
- |
- |
- |
- |
✔ |
幻觉检测(带有 AskLLM 的 SelfCheckGPT) |
✔ |
✔ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
AskLLM rails |
|||||||||||
• 越狱检测 |
✔ (0.88) |
✔ (0.88) |
✖ |
✖ |
✔ (0.85) |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
• 输出审核 |
✔ |
✔ |
✖ |
✖ |
✔ (0.85) |
✖ |
✖ |
✖ |
✖ |
✖ |
✖ |
• 事实核查 |
✔ (0.81) |
✔ (0.82) |
✔ (0.80) |
✖ |
✔ (0.83) |
✖ |
✖ |
✖ |
✖ |
✖ |
❗ (取决于模型) |
AlignScore 事实核查(LLM 独立) |
✔ (0.89) |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
ActiveFence 审核(LLM 独立) |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
Llama Guard 审核(LLM 独立) |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
Got It AI RAG TruthChecker (LLM 独立) |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
Patronus Lynx RAG 幻觉检测(LLM 独立) |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
GCP 文本审核(LLM 独立) |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
Patronus Evaluate API (LLM 独立) |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
Fiddler Fast Faitfhulness 幻觉检测(LLM 独立) |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
Fiddler Fast Safety & 越狱检测(LLM 独立) |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
✔ |
表格图例
✔ - 支持(该特性已通过我们的实验和测试获得 LLM 的完全支持)
❗ - 有限支持(实验和测试表明 LLM 在该特性上的表现不佳)
✖ - 不支持(实验显示性能非常差,或者没有针对 LLM-特性对进行任何实验)
- - 不适用(例如,模型支持流式传输,这取决于它们的部署方式)
上表中报告的每个 LLM-特性对的性能数字如下
银行业数据集评估对话(主题)rails
使用 MSMARCO 数据集进行事实核查和审核 rails 实验。更多详情请参见 评估文档。