Amazon Bedrock 提示缓存
概览
许多基础模型(FM)应用场景将在 API 调用中重复使用提示的某些部分(前缀)。通过提示缓存,支持的模型可允许您在请求之间缓存这些重复的提示前缀。该缓存允许模型跳过重新计算匹配前缀的步骤。因此,对于支持的模型,Amazon Bedrock 中的提示缓存可将成本降低多达 90%,并将延迟减少高达 85%。
提高多种应用场景的性能
许多应用程序都需要或受益于长提示,例如文档问答、代码助手、代理搜索或长篇聊天。即便使用最智能的基础模型,您也经常需要使用带有详细说明的大量多样本提示,才能为您的应用场景获得正确的结果。但是,在 API 调用中重复使用的长提示可能会导致平均延迟增加。使用提示缓存时,如果提示前缀已被缓存,则无需重新计算内部模型状态。这样可以节省处理时间,从而降低响应延迟。
降低与重复的长提示相关的成本
使用提示缓存,您可以缓存提示的某些相关部分,以节省输入令牌成本。您的缓存只适用于您的账户,并包含代表提示的内部模型状态。模型可以跳过对缓存前缀的重新计算,因此处理请求所需的计算资源会减少。结果是,您的成本降低了。
与其他 Amazon Bedrock 功能无缝集成
提示缓存与 Amazon Bedrock 功能(例如代理)集成,让您可以加快多步骤任务,甚至可以利用较长的系统提示来帮助优化代理行为,而不会减慢响应速度。