通过解决问题、主动监控和数据驱动型洞察,优化 AWS 资源的性能和可用性,以实现流畅、高效、安全的云运营。
通过显示数据以快速诊断问题的根本原因,缩短解决问题的平均时间(MTTR)。
统一容器和无服务器服务中的端到端可观测性和分析,因此消除了各项服务中的繁琐的标记和事件关联。
监控容器和无服务器工作负载并进行故障排查,以提高弹性和效率。例如,借助 CloudWatch 中由人工智能和机器学习提供支持的功能,您可以使用自然语言查询日志和指标、分析模式和检测异常以及自动屏蔽 CloudWatch 日志中的敏感数据。
利用 Amazon Bedrock、Amazon SageMaker 和 Amazon CloudWatch 的强大功能,有效地监控和优化生成式人工智能资源的性能。您可以使用 CloudWatch Container Insights 自动发现和监控在 Amazon EKS 集群中运行的 NVIDIA GPU、Trainium 和 Inferentia 加速器、EFA 网络适配器以及 SageMaker HyperPod 的关键运行状况指标,深入了解资源利用率、可用性和延迟。
您可以使用 CloudWatch Application Signals 监控关键运行指标,例如执行持续时间、错误和限制,深入了解无服务器应用程序的性能。此外,您还可以使用 CloudWatch Lambda 洞察在开箱即用的精选控制面板中监控 CPU、内存和网络指标等关键运行状况指标,以及使用 CloudWatch Logs Insights 分析日志数据和分布式跟踪以确定潜在的瓶颈。借助这些 CloudWatch 功能,您可以优化无服务器架构,以节省成本和提高效率。
借助 CloudWatch Application Signals,您可以轻松监控关键应用程序指标,还可以轻松了解在容器中运行的应用程序的性能。您可以将业务目标转换为 SLO,跟踪其性能在达到关键性能指标(KPI)方面的情况。CloudWatch Application Signals 与 CloudWatch Container Insights 一起,为您提供 Amazon EKS 和 Amazon ECS 资源的运行状况及性能指标,实现针对应用程序的端到端可观测性。
应用程序开发人员和数据库管理员(DBA)可访问 CloudWatch Database Insights 中的综合数据库遥测控制面板,将数据库集群(例如 Aurora MySQL 和 PostgreSQL)速度变慢与影响应用程序性能的问题联系起来。这有助于加快排除数据库故障,最终提供更好的最终用户体验。