在 Amazon Bedrock 中进行模型评估
模型评估在开发的各个阶段都至关重要。作为开发人员,您现在拥有可用于构建生成式人工智能 (AI) 应用程序的评估工具。您可以先在平台环境中尝试不同的模型。为了更快地进行迭代,请添加模型的自动评估。然后,当您准备首次发布或限制性发布时,您可以纳入人工审核以帮助确保质量。
视频教程
文档教程
创建模型评估作业 — 选择评估方法(自动或人工),选择一个可用的基础模型,选择任务类型,然后选择评估指标。您可以为自动评估选择准确性、稳健性和毒舌性,也可以为人工评估选择任何所需的指标(例如友好度、风格和对品牌声音的遵守情况)。如果您选择人工评估,则可以使用自己的工作团队,也可以选择 AWS 管理的团队。有四种内置任务类型和一种自定义类型(未显示):
选择任务类型后,您可以选择要用于评估模型性能的指标和数据集。例如,如果您选择文本分类,则可以评估您自己的数据集或内置数据集的准确性和 / 或稳健性:
如上所示,您可以使用内置数据集,也可以准备一个 JSON 行 (JSONL) 格式的新数据集。每个条目都必须包含提示,并且可以包含一个类别。对于所有人工评估配置以及自动评估的任务类型和指标的某些组合,参考响应是可选的:
{
"prompt" : "Bobigny is the capitol of",
"referenceResponse" : "Seine-Saint-Denis",
"category" : "Capitols"
}
您(或您的当地主题专家)可以使用针对您的组织和用例的客户支持问题、产品描述或销售宣传材料来创建数据集。内置数据集包括 Real Toxicity、BOLD、TREX、WikiText-2、Gigaword、BoolQ、Natural Questions、Trivia QA 和 Women’s Ecommerce Clothing Reviews。这些数据集旨在测试特定类型的任务和指标,可以根据需要进行选择。
运行模型评估作业 — 启动作业并等待其完成。您可以从控制台查看每个模型评估任务的状态,也可以使用新的 GetEvaluationJob API 函数访问状态:
检索和查看评估报告 — 获取报告并根据您之前选择的指标查看模型的性能。
GA 的新功能
解决这些问题后,看看为今天的发布准备的新增功能:
改进的任务管理 — 您现在可以使用控制台或新的模型评估 API 停止正在运行的作业。
模型评估 API — 您现在可以通过编程方式创建和管理模型评估作业。以下函数可用:
- CreateEvaluationJob — 使用 API 请求中指定的参数(包括 evaluationConfig 和 inferenceConfig)创建并运行模型评估作业。
- ListEvaluationJobs — 列出模型评估作业,可选择按创建时间、评估作业名称和状态进行筛选和排序。
- GetEvaluationJob — 检索模型评估作业的属性,包括状态(InProgress、Completed、Failed、Stopping 或 Stopped)。作业完成后,评估结果将存储在提供给 CreateEvaluationJob 的 outputDataConfig 属性中指定的 S3 URI 中。
- StopEvaluationJob — 停止正在进行的作业。作业一旦停止,就无法恢复,如果要重新运行它,则必须重新创建。
该模型评估 API 是预览期间最受欢迎的功能之一。您可以使用它来大规模执行评估,也许可以作为应用程序开发或测试方案的一部分。
增强安全性 — 您现在可以使用 客户管理的 KMS 密钥 来加密您的评估作业数据(如果您不使用此选项,则会使用 AWS 拥有的密钥对数据进行加密):
选择模型后,您可以设置用于模型评估任务的推理配置:
注意事项
关于此功能,需要了解以下几点:
定价 — 您为模型评估过程中进行的推断付费,无需为算法生成的分数支付额外费用。如果您与自己的团队一起使用基于人工的评估,则需要为每个完成的任务(即人工工作人员在人工评估用户界面中提交对单个提示及其相关推理响应的评估)支付 0.21 美元的推理费用。AWS 托管工作团队执行的评估的定价基于对您的评估很重要的数据集、任务类型和指标。有关更多信息,请查阅 Amazon Bedrock 定价 页面。
区域 — 模型评估适用于 AWS 区域美国东部(弗吉尼亚州北部)和美国西部(俄勒冈州)。