Amazon DevOps Guru FAQ

일반

Amazon DevOps Guru는 기계 학습(ML) 기반 서비스로서 애플리케이션의 운영 성능 및 가용성을 쉽게 개선하도록 설계되었습니다. DevOps Guru는 정상적인 운영 패턴에서 벗어나는 동작의 탐지를 도와 고객에게 영향을 미치기 훨씬 전에 운영 문제를 확인할 수 있습니다. DevOps Guru는 오랫동안 Amazon.com 및 AWS 운영 우수성을 기반으로 축적된 기계 학습 모델을 사용함으로써 비정상적인 애플리케이션 동작(예: 지연 시간, 오류율, 리소스 제약 등의 증가)을 식별하고 가동 중단 또는 서비스 중단을 유발할 수 있는 중요한 문제를 탐지할 수 있습니다. DevOps Guru가 중요한 문제를 식별하면 자동으로 알림을 발송하면서 관련 이상 현상, 문제가 발생한 시기 및 위치에 대한 컨텍스트를 요약하여 제공합니다. DevOps Guru는 또한 문제를 해결하는 방법에 대한 권장 사항도 제공하도록 설계되었습니다.

Amazon DevOps Guru는 운영 문제 탐지, 디버깅, 해결에 쓰는 시간과 노력을 절감하여 점점 복잡해지는 애플리케이션을 효과적으로 모니터링하도록 설계되었습니다. 모니터링에서 경보 누락과 같이 애플리케이션 가동 중단 시간을 유발할 수 있는 일반적인 실수 및 오류를 예방할 수 있습니다. 운영 문제가 발생하면 DevOps Guru는 많은 데이터 소스에서 관련되는 해당 정보를 가져오므로 디버깅 시간을 절약할 수 있습니다. DevOps Guru는 문제에 대한 알림을 제공하는 운영 인사이트와 관련 이상 현상 요약, 문제가 발생한 이유 및 시기에 대한 컨텍스트 정보, 문제를 해결하고 애플리케이션 가동 중단 시간을 줄일 수 있는 방법에 대한 권장 사항 등을 생성합니다.

Amazon DevOps Guru의 ML 모델은 Amazon.com을 위해 보편적으로 사용 가능한 애플리케이션을 구축, 확장, 유지 관리해 온 20년 이상의 운영 전문 지식을 활용합니다. DevOps Guru는 모든 리소스의 지연 시간, 오류율 및 요청 속도와 같은 지표를 자동으로 수집 및 분석하여 정상적인 운영 한계를 설정하도록 설계되었습니다. 그런 다음 DevOps Guru는 사전 훈련한 기계 학습 모델을 사용하여 설정된 기준에서 벗어난 편차를 식별합니다. 지연 시간, 오류율 또는 리소스 제약 등의 증가와 같이 가동 중단 또는 서비스 중단을 유발할 수 있는 비정상적인 애플리케이션 동작을 식별하면 해당 리소스, 문제 타임라인 및 기타 관련 이벤트와 같은 문제 세부 정보를 운영자에게 경고하여 잠재적인 영향 및 가능한 문제의 원인을 신속하게 이해할 수 있도록 지원합니다. 또한 문제 해결 또는 완화 옵션도 제공할 수 있도록 설계되었습니다. 그러면 개발자는 DevOps Guru의 제안 사항을 사용하여 문제 발생 시에 해결 시간을 절약하고 수동 구성을 설정할 필요가 없이, 그리고 기계 학습 전문 지식이 없어도 애플리케이션 가용성 및 안정성을 개선할 수 있습니다. DevOps Guru는 독립형 서비스로 사용할 수도 있고 PagerDuty 및 Atlassian의 파트너 애플리케이션, AWS System Manager Ops Center 등과 통합하여 사용할 수도 있습니다.

AWS Management Console에서 몇 번의 클릭만으로 Amazon DevOps Guru를 활성화할 수 있습니다. DevOps Guru는 AWS 리소스의 분석 범위를 빠르게 구성할 수 있는 온보딩 마법사를 제공합니다. 활성화된 DevOps Guru는 사용자의 선택에 따라 AWS 리소스의 운영 데이터를 지속적으로 분석하여 진행 중이거나 새로 나타난 운영 문제를 탐지할 때마다 인사이트를 생성하도록 설계되었습니다.

분석 범위 한계를 전체 AWS 계정으로 선택하거나, DevOps Guru가 분석할 특정 AWS CloudFormation 스택을 지정하거나, AWS 태그를 사용해 DevOps Guru가 분석할 리소스 그룹을 생성할 수 있습니다. 선택 사항에 따라 DevOps Guru는 선택한 범위 한계에 속하는 지원되는 AWS 리소스 전체의 운영 데이터를 분석합니다.

새 리소스를 범위 한계 선택에 추가하면 DevOps Guru가 자동으로 추가된 리소스 분석을 시작합니다. 마찬가지로 DevOps Guru는 계정 또는 CloudFormation 스택에서 리소스를 제거하면 해당 리소스의 분석 및 결제 작업을 중지합니다.

Amazon DevOps Guru는 누락되거나 잘못 구성된 경보, 리소스 고갈 조기 경고, 코드 및 구성 변경 등 중단을 유발할 수 있는 운영 문제를 자동으로 탐지하도록 설계되었습니다. DevOps Guru는 ML을 사용하여 지표 및 로그의 이상 현상을 운영 이벤트와 상호 연결함으로써 적절한 해결 조치에 집중할 수 있는 컨텍스트 기반 인사이트를 제공합니다. DevOps Guru는 웹 애플리케이션 지연 시간 급증, 디스크 공간 부족, 잘못된 코드 배포 또는 메모리 누수 등 관련 애플리케이션 및 인프라 지표의 상관 관계를 분석하고 그룹화함으로써 오탐 및 중복 경보를 줄여 심각도가 높은 문제에 집중하는 데도 도움이 됩니다.

출시 시점 기준으로 Amazon DevOps Guru는 Amazon CloudWatch, AWS Config, AWS System Manager OpsCenter, AWS CloudFormation, AWS X-Ray의 데이터를 사용할 수 있습니다. Amazon DevOps Guru는 또한 Atlassian OpsGenie 및 Pager Duty와 같은 파트너 운영 모니터링 및 인시던트 관리 솔루션에도 통합할 수 있습니다.

AWS Systems Manager OpsCenter를 사용하는 경우 Amazon DevOps Guru Operational Insights를 OpsCenter 대시보드 내에 OpsItem으로 직접 표시할 수 있습니다.

Amazon DevOps Guru는 수집 및 데이터 분석 중에 전송 및 저장 중 암호화를 사용하여 콘텐츠를 보호합니다.

AWS의 훈련 데이터는 내부 AWS 서비스 및 인프라에서 생성했습니다. 

운영 인사이트

Amazon DevOps Guru Operational Insights는 DevOps Guru 콘솔에서 직접 운영 문제를 조사 및 해결하는 데 필요한 정보를 집계합니다. 인사이트는 3개의 기본 섹션으로 구성됩니다. 비정상적인 시스템 및 애플리케이션 동작을 쉽게 시각화할 수 있는 그래프와 함께 운영 문제에 관련된 비정상적인 지표 및 로그를 강조 표시합니다. 또한 인사이트에는 해당 이벤트, 로그 스니펫 등의 컨텍스트 정보도 포함되므로 범위 및 문제 타임라인을 쉽게 이해할 수 있습니다. 운영 인사이트에는 또한 문제를 해결하기 위해 취할 수 있는 권장 조치도 포함됩니다.

AWS Systems Manager OpsCenter에서 Amazon DevOps Guru가 생성하는 각 인사이트의 OpsItem을 생성하도록 Amazon DevOps Guru를 구성할 수 있습니다. 또한 AWS SNS를 통해 인사이트를 제공함으로써 PagerDuty 및 Atlassian과 같은 인시던트 관리 도구에 사용할 수 있도록 DevOps Guru를 구성할 수도 있습니다.

활성화되면 Amazon DevOps가 애플리케이션의 기준을 설정하기 시작하며, 분석되는 리소스 수에 따라 몇 분에서 1시간까지 소요될 수 있습니다. 기준을 설정한 후에 DevOps Guru는 리소스를 지속적으로 분석하면서 비정상적인 동작을 탐지하면 인사이트를 생성합니다.

DevOps Guru for RDS

 Amazon DevOps Guru for RDS는 데이터베이스 내의 성능 및 운영 문제를 자동으로 탐지하고 진단하도록 설계된 Amazon DevOps Guru의 ML 기반 기능으로, 개발자는 며칠이 아닌 몇 분 만에 문제를 해결할 수 있습니다. DevOps Guru for RDS는 DevOps Guru의 기능을 확장하여 Amazon RDS의 다양한 데이터베이스 관련 문제(예: 리소스 과잉 사용 및 특정 SQL 쿼리의 오작동)를 탐지, 진단 및 해결합니다. 오류가 발생하면 Amazon DevOps Guru for RDS가 즉시 개발자에게 알리고 진단 정보, 문제 범위에 대한 세부 정보, 지능형 문제 해결 권장 사항을 제공하여 고객이 데이터베이스 관련 성능 병목 현상 및 운영 문제를 신속하게 해결할 수 있도록 합니다.

Amazon DevOps Guru for RDS는 관계형 데이터베이스 워크로드에서 찾기 힘든 성능 병목 현상을 감지하고 해결하는 데 필요한 수작업을 제거하고 시간을 몇 시간, 며칠에서 몇 분으로 단축하도록 설계되었습니다. 모든 Amazon Aurora 및 RDS for PostgreSQL 데이터베이스에 대해 DevOps Guru for RDS를 사용하면 워크로드에 대한 성능 문제를 자동으로 감지하고, 각 문제에 대해 알림을 보내고, 조사 결과를 설명하고, 해결할 조치를 권장합니다. DevOps Guru for RDS는 비전문가가 데이터베이스 관리에 더 쉽게 액세스할 수 있도록 도와주며 데이터베이스 전문가가 더 많은 데이터베이스를 관리할 수 있도록 지원합니다.

Amazon DevOps Guru for RDS는 Amazon RDS Performance Insights(PI)에서 수집한 원격 측정 데이터를 분석합니다. DevOps Guru for RDS는 데이터베이스에 저장된 데이터를 분석에 사용하지 않습니다. DevOps Guru for RDS는 규칙과 ML 기반 기술의 조합을 사용하여 PI 원격 측정에서 문제가 있는 패턴을 찾고 이러한 패턴이 감지되면 고객에게 경보를 보냅니다.

시작하려면 Amazon RDS 콘솔에서 Amazon RDS Performance Insights를 켜고 Amazon DevOps Guru 콘솔로 이동하여 Amazon Aurora 리소스나 기타 지원되는 리소스 또는 전체 계정에 대해 서비스를 활성화하세요. 또한 Amazon Aurora 데이터베이스에 대해 Amazon DevOps Guru for RDS를 설정하고, 동시에 Amazon RDS 콘솔에서 새 데이터베이스를 생성하거나 수정할 수도 있습니다. 성능 개선 도우미(PI) 페이지 또는 데이터베이스 세부 정보 페이지 내에서 Amazon DevOps Guru for RDS를 사용하는 옵션도 사용할 수 있습니다. DevOps Guru를 사용하면 분석 범위 한계를 전체 AWS 계정으로 선택하거나, DevOps Guru가 분석할 특정 AWS CloudFormation 스택을 지정하거나, AWS 태그를 사용해 DevOps Guru가 분석할 리소스 그룹을 생성할 수 있습니다.

Amazon DevOps Guru for RDS는 잠금 누적, 과도한 동시 연결, SQL 회귀, CPU 및 I/O 경합, 메모리 문제 또는 파라미터 구성 오류와 같이 애플리케이션 서비스 품질에 영향을 줄 수 있는 광범위한 성능 문제를 식별하도록 설계되었습니다.

Amazon RDS 성능 개선 도우미는 Amazon RDS 데이터베이스 성능 지표를 수집하고 해당 성능 지표를 시각적으로 표현하는 데이터베이스 성능 조정 및 모니터링 기능으로, 데이터베이스의 상태를 빠르게 평가하고 언제 어디에서 조치해야 하는지 파악하는 데 도움이 됩니다. Amazon DevOps Guru for RDS는 이러한 지표를 모니터링하고, 데이터베이스에 성능 문제가 발생하는 시기를 탐지하고, 지표를 분석한 다음, 무엇이 잘못되었고 이에 대해 무엇을 할 수 있는지 알려줍니다.

DevOps Guru for Serverless

Amazon DevOps Guru for Serverless는 Amazon DevOps Guru의 새로운 ML 기반 기능입니다. 이 기능은 AWS 리소스를 사용하여 구축된 서버리스 애플리케이션의 성능 및 운영 문제를 자동으로 탐지하고 진단하도록 설계되었습니다. DevOps Guru for Serverless는 서버리스 애플리케이션의 문제(예: 성능 대기 시간 저하, 리소스 소모 등)를 탐지 및 진단하고 문제 해결 권장 사항을 제공하도록 DevOps Guru의 기능을 확장합니다. 애플리케이션에 영향을 미치는 지속적인 문제에 대한 사후 대응적 인사이트를 제공함으로써 문제를 보다 빠르게 해결할 수 있도록 합니다. 또한 애플리케이션 및 인프라의 잠재적 문제에 플래그를 지정하는 사전 예방적 인사이트도 제공하여 더 빠르게 대응하고 다운타임 및 운영 비용을 줄일 수 있도록 합니다.

Amazon DevOps Guru for Serverless를 사용하면 서버리스 애플리케이션의 성능 및 운영 문제를 모니터링할 수 있습니다. 수동 설정, 기계 학습 전문 지식 또는 심층적인 서버리스 전문 지식이 필요하지 않습니다. 이 서비스는 서버리스 애플리케이션에서 찾기 어려운 안정성, 성능 및 운영 문제를 탐지하고 해결하는 시간을 단축(몇 시간에서 몇 분으로)하도록 설계되었습니다. 또한 DevOps Guru for Serverless는 애플리케이션에 영향을 미칠 수 있는 잠재적 문제를 조기에 탐지하여 사용자에게 영향을 미치기 전에 문제를 완화할 수 있도록 합니다.

Amazon DevOps Guru for Serverless는 서버리스 애플리케이션의 모든 리소스에 대한 지표와 로그를 자동으로 수집하고 분석하여 정상 작동 경계를 설정한 다음 설정된 기준과의 편차를 탐지합니다. DevOps Guru는 애플리케이션이 비정상 상태에 있는 것으로 식별되면 작업자에게 문제를 알리고 관련된 리소스, 문제 일정 및 관련 이벤트와 같은 세부 정보를 함께 제공하여 문제의 잠재적 영향 및 가능한 원인을 신속하게 파악할 수 있도록 합니다. 또한 문제 해결 또는 완화 옵션도 제공할 수 있도록 설계되었습니다.

클릭 몇 번으로 AWS 계정에서 서버리스 애플리케이션에 Amazon DevOps Guru를 사용하도록 설정하여 서버리스 애플리케이션 모니터링을 시작할 수 있습니다. 적용 범위 한계를 전체 AWS 계정으로 설정하거나 특정 AWS CloudFormation 스택을 지정하거나 AWS 태그를 사용하여 DevOps Guru로 분석할 리소스 그룹화를 생성할 수 있습니다.

DevOps Guru for Serverless는 ML을 사용하여 지표 및 로그의 이상 현상과 운영 이벤트의 상관 관계를 분석하고 적절한 해결 단계에 집중할 수 있는 컨텍스트 기반 인사이트를 제공합니다. 또한 DevOps Guru for Serverless는 잠재적 문제를 조기에 탐지하여 애플리케이션에 영향을 미치기 전에 완화할 수 있도록 합니다. 사전 예방적 인사이트에는 3가지 유형이 있습니다.

  • 리소스 설정: Amazon DevOps Guru for Serverless는 AWS 모범 사례를 준수하지 않는 리소스 설정이 포함된 애플리케이션을 탐지합니다. 예를 들어 API 게이트웨이 엔드포인트가 있는 Lambda 기반 애플리케이션을 가정해 보겠습니다. Lambda 함수에 현재 프로비저닝된 함수 동시성을 넘어서는 호출이 있습니다. 이는 콜드 스타트를 유발하는 요청의 지속적인 스필오버로 이어지며 결과적으로 대기 시간이 감소하고 잠재적으로 더 높은 비용이 발생합니다. DevOps Guru는 이 문제를 탐지하고 Lambda 함수 프로비저닝된 동시성을 높일 것을 사전에 권장합니다.
  • 리소스 소모: Amazon DevOps Guru for Serverless는 애플리케이션 사용량 추세를 기반으로 제한에 도달하는 일부 리소스의 위험을 탐지합니다. 예를 들어 Elastic Search 노드에 느린 메모리 누수가 있고 이 누수는 꾸준히 증가해 왔습니다. DevOps Guru는 이를 탐지하고 메모리가 최대 용량 제한에 곧 도달할 것임을 예측한 후 메모리 증가를 해결할 것을 권장하는 사전 예방적 인사이트를 생성합니다.
  • 리소스 사용률: Amazon DevOps Guru for Serverless는 애플리케이션에 사용률이 낮은 리소스가 있음을 탐지합니다. 예를 들어 애플리케이션의 DynamoDB가 실제 사용되는 것보다 훨씬 높은 쓰기 용량 단위를 프로비저닝했습니다. DevOps Guru는 이를 탐지하고 DynamoDB의 프로비저닝된 쓰기 용량을 축소할 것을 권장합니다.

Amazon DevOps Guru for Serverless는 지연 시간 저하 및 5xx 오류 등 애플리케이션에 영향을 미치는 지속적인 문제를 빠르게 해결할 수 있도록 사후 대응적 인사이트를 제공합니다. Amazon DevOps Guru for Serverless는 조기에 애플리케이션 및 인프라의 잠재적 문제에 플래그를 지정하는 사전 예방적 인사이트를 제공하여 빠르게 대응하고 다운타임 또는 운영 비용을 줄일 수 있도록 합니다.

요금 및 결제

Amazon DevOps Guru에서는 사용한 만큼만 비용을 지불합니다. 사전 약정이나 최소 비용이 없습니다. DevOps Guru를 활성화하고 모니터링할 애플리케이션을 지정하면 DevOps Guru가 이 애플리케이션이 사용하는 리소스의 운영 데이터 분석 작업을 시작합니다. 청구서를 결정하는 두 가지 구성 요소는 AWS 리소스 분석 요금과 DevOps Guru API 호출 요금입니다. 자세한 내용은 요금 페이지를 참조하세요.

DevOps Guru가 분석하는 AWS 리소스 유형(예: Amazon S3 버킷, Amazon EC2 인스턴스)은 두 가지 요금 그룹으로 분류됩니다. 특정 AWS 리소스 유형에 부과되는 요금은 요금 그룹이 A인지 B인지에 따라 다릅니다.

아니요. 각 활성 리소스의 분석된 AWS 리소스 시간에 대해서만 요금을 지불합니다. 리소스는 1시간 내에 지표, 이벤트 또는 로그 항목을 생성하는 경우에만 활성화됩니다.

DevOps Guru는 현재 25개 이상의 다양한 AWS 리소스 유형(Amazon S3 버킷, Amazon EC2 인스턴스)을 분석하며, 곧 추가 리소스 유형을 지원할 예정입니다.

분석할 특정 AWS 리소스를 선택하는 대신 리소스 분석 범위 한계를 지정합니다. 선택 사항에 따라 DevOps Guru는 범위 한계에 속하는 모든 지원 AWS 리소스의 운영 데이터를 분석합니다. 전체 계정이나 특정 AWS CloudFormation 스택을 선택하거나, AWS 태그를 사용해 DevOps Guru가 분석할 리소스 그룹을 범위 한계로서 생성할 수 있습니다. 새 리소스를 범위 한계(계정 또는 CloudFormation 스택)에 추가하면 DevOps Guru가 자동으로 추가 리소스의 분석을 시작합니다. 마찬가지로 DevOps Guru에서 분석 중인 계정 또는 CloudFormation 스택에서 리소스를 제거하면 해당 리소스의 분석 및 결제 작업이 중지됩니다.

Amazon DevOps Guru for RDS는 DevOps Guru가 RDS 리소스에 대해 청구하는 기존 요금의 일부로 제공되므로 추가 비용이 없습니다. DevOps Guru는 평가하는 리소스 유형을 두 그룹으로 나눕니다. 그룹 A는 AWS Lambda와 Amazon S3를 포함하며, 그룹 B는 Amazon RDS, Amazon EC2, Amazon Redshift clusters 및 기타 25가지의 AWS 리소스 유형을 포함합니다. 그룹 A 요금은 시간당 리소스별로 0.0028 USD(30일 동안 리소스별 약 2 USD와 같음)입니다. 그룹 B 요금은 시간당 리소스별로 0.0042 USD(30일 동안 리소스별 약 3 USD와 같음)입니다. 자세한 내용은 요금 페이지를 참조하세요.

DevOps Guru 비용 계산기 도구를 사용하여 리소스 분석 요금을 확인할 수 있습니다. 선택한 리소스가 검사되고 월 예상 비용이 생성됩니다. 비용 계산기의 기본값은 분석된 활성 리소스가 100% 활용되었다고 가정하는 것입니다. 예상 사용량에 따라 분석된 각 서비스에 대해 이 비율을 변경하여 업데이트된 월 예상 비용을 생성할 수 있습니다.

DevOps Guru 이벤트에 대한 알림을 수신하도록 Amazon Simple Notification Service(SNS)를 구성하면 표준 Amazon SNS 요금에 따른 추가 요금이 발생합니다. 마찬가지로 DevOps Guru 인사이트에 대한 OpsItem을 수신하도록 구성하면 표준 AWS Systems Manager 요금에 따른 추가 요금이 발생합니다.

예. AWS 프리 티어에는 3개월 동안 매월 리소스 그룹 A 및 B에 대해 각각 7,200 AWS 리소스 시간의 DevOps Guru 분석과 10,000개의 DevOps Guru API 직접 호출 사용량이 포함됩니다.

Amazon DevOps Guru는 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 미국 서부(오리건), 캐나다(중부), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(스톡홀름), 유럽(런던), 유럽(파리), 아시아 태평양(뭄바이), 아시아 태평양(서울), 남아메리카(상파울루), 아시아 태평양(싱가포르), 아시아 태평양(시드니) 및 아시아 태평양(도쿄) AWS 리전에서 제공되며 추가 리전에서 곧 사용할 수 있습니다. AWS 리전별 서비스 목록을 참조할 수도 있습니다.