Questions fréquentes (FAQ) Amazon DevOps Guru

Questions d’ordre général

Amazon DevOps Guru est un service optimisé par le Machine Learning (ML) conçu pour l'amélioration de la performance opérationnelle et de la disponibilité d'une application. DevOps Guru vous aide à détecter les comportements qui s'écarte des modèles opérationnels habituels pour vous permettre d'identifier les problèmes opérationnels avant qu'ils n'impactent vos clients. DevOps Guru utilise des modèles de ML fondés sur des années d’excellence opérationnelle d’Amazon.com et d’AWS, afin d’aider à l’identification de comportements anormaux des applications (p. ex. temps de latence accru, taux d'erreur, manque de ressources, entre autres). Ces modèles permettent aussi la détection de problèmes critiques qui pourraient causer de possibles interruptions ou perturbations de service. Quand le service DevOps Guru identifie un problème critique, il envoie automatiquement une alerte et fournit un résumé contenant les anomalies relevées et la cause racine probable. Le résumé informe aussi sur le moment et l'endroit où le problème est apparu. DevOps Guru est également conçu pour fournir des recommandations sur la manière de résoudre le problème, quand cela est possible.

Amazon DevOps Guru est conçu pour vous éviter des heures et des jours d’efforts consacrés à la détection, au débogage et à la résolution de problèmes opérationnels. Le service vous aide également à surveiller efficacement vos applications complexes et en constante évolution. Il aide à éviter les lacunes fréquentes et les erreurs de surveillance, comme les alarmes manquées, qui causent l'interruption des applications. Quand des problèmes opérationnels se produisent, DevOps Guru sauvegarde votre temps de blocage en récupérant des informations pertinentes et précises à partir de nombreuses sources de données. DevOps Guru génère des informations opérationnelles pour vous alerter du problème, avec un résumé des anomalies relevées, des informations contextuelles sur la cause et le moment où le problème s'est produit, complété avec des recommandations sur la manière de résoudre les problèmes et réduire les temps de blocage.

Les modèles de ML d’Amazon DevOps Guru bénéficient de plus de 20 ans d’expertise opérationnelle dans les domaines de la création, la mise à l’échelle et la gestion d’applications disponibles à grande échelle pour Amazon.com. DevOps Guru est conçu pour intégrer et analyser automatiquement des paramètres comme les latences, les taux d'erreur, et demande des taux pour toutes les ressources afin d'établir des limites normales d'exploitation. DevOps utilise ensuite un modèle de ML pré-entraîné afin d'identifier les écarts par rapport aux références établies. Quand il identifie un comportement anormal de l'application comme une latence accrue, des taux d'erreur, ou des ressources limitées qui peuvent causer des interruptions ou des perturbations du service, il alerte les opérateurs avec les détails du problème comme les ressources impliquées, la chronologie du problème, et d'autres évènements rapportés afin de les aider à comprendre rapidement les répercussions possibles et les causes probables du problème. Il est également conçu pour fournir des options pour la résolution ou la réduction. Les développeurs peuvent ensuite utiliser les suggestions de DevOps Guru afin de réduire le temps de résolution quand les problèmes surviennent et améliorer la disponibilité et la fiabilité de l'application sans configuration manuelle - et sans l'expertise ML requise. DevOps Guru peut être utilisé comme un service autonome, et intègre également des applications partenaires de PagerDuty et Atlassian avec le AWS System Manager OpsCenter.

En quelques clics, vous pouvez activer Amazon DevOps Guru dans la Console de gestion AWS. DevOps Guru est fourni avec un assistant d'onboarding qui vous aide à configurer rapidement la couverture d'analyses pour vos ressources AWS. Une fois activé, DevOps Guru est conçu pour analyser en continu les données opérationnelles de vos ressources AWS sélectionnées. Le service génère ensuite des informations analytiques chaque fois qu’il détecte des problèmes opérationnels ou des risques de nouveaux problèmes.

Vous pouvez choisir comme périmètre à analyser l’ensemble de votre compte AWS ou spécifier les piles AWS CloudFormation que DevOps Guru doit analyser. Vous pouvez également utilisez les identifications AWS pour créer le regroupement de ressources que vous souhaitez faire analyser par DevOps Guru. À partir de votre sélection, DevOps Guru analyse les données opérationnelles de toutes les ressources AWS prises en charge dans le périmètre spécifié.

Quand vous ajoutez de nouvelles ressources pour votre sélection de périmètre de couverture, DevOps Guru commence automatiquement l'analyse des ressources supplémentaires. Également, DevOps Guru arrête l'analyse et la facturation de toute ressource quand vous les effacez de votre compte ou de votre pile CloudFormation.

Amazon DevOps Guru est conçu pour détecter automatiquement les problèmes opérationnels (comme les alarmes manquantes ou mal configurées), les signes avant‑coureurs d’épuisement des ressources ainsi que les modifications de code et de configuration susceptibles de causer des problèmes. DevOps Guru utilise le ML pour mettre en corrélation les anomalies dans les métriques et les journaux avec les évènements opérationnels, et vous fournit des informations contextuelles pour vous aider à vous concentrer sur les mesures correctives appropriées. DevOps Guru met en corrélation et regroupe également les métriques d’applications et d’infrastructures connexes, comme les pics de latence des applications web, le manque d’espace disque, les déploiements de code défectueux ou les fuites de mémoire. Ainsi, vous pouvez réduire le nombre d’alarmes redondantes ou inutiles et vous concentrer davantage sur les problèmes.

Au lancement, Amazon DevOps Guru peut utiliser les données des services suivants : Amazon CloudWatch, AWS Config, le Gestionnaire de systèmes AWS OpsCenter, AWS CloudFormation et AWS X-Ray. Amazon DevOps Guru est aussi intégré avec la surveillance des opérations et la solution de gestion des incidences de partenaires comme Atlassian OpsGenie et Pager Duty.

Si vous utilisez le Gestionnaire de systèmes AWS OpsCenter, les Informations opérationnelles Amazon DevOps peuvent s’afficher comme OpsItems directement dans le tableau de bord OpsCenter.

Amazon DevOps Guru utilise le chiffrement en transit et au repos afin de protéger votre contenu durant l’ingestion et l’analyse des données.

Nos données d’entraînement ont été générées par les services et l’infrastructure AWS internes. 

Informations opérationnelles

La fonctionnalité Informations opérationnelles Amazon DevOps Guru rassemble les informations nécessaires afin d’enquêter et de résoudre un problème opérationnel directement depuis la console DevOps Guru. Une information opérationnelle est composée de trois principales sections. Elle souligne les métriques et les journaux anormaux liés au problème opérationnel, accompagnés de graphiques pour visualiser facilement les comportements anormaux du système et des applications. L'information inclut également des informations contextuelles, comme des évènements pertinents, des extraits de journaux. De cette façon, vous pouvez aisément comprendre la portée ainsi que le déroulement du problème. Les informations opérationnelles incluent également des recommandations sur des actions que vous pouvez suivre pour remédier au problème.

Vous pouvez configurer Amazon DevOps Guru afin de créer un OpsItem dans le Gestionnaire de systèmes AWS OpsCenter pour chaque information analytique qu’il génère. Vous pouvez également configurer DevOps Guru pour livrer ses informations via AWS SNS, que vous pouvez utiliser dans les outils de gestion d'incidence comme PagerDuty et Atlassian.

Une fois activé, le service Amazon DevOps commence à analyser votre application, ce qui peut prendre entre quelques minutes et une heure selon le nombre de ressources. Après l'étude, DevOps Guru analyse vos ressources en continu et produit des informations quand il détecte des comportements anormaux.

DevOps Guru pour RDS

 Amazon DevOps Guru pour RDS est une nouvelle fonctionnalité Amazon DevOps Guru optimisée par le machine learning (ML). Elle est conçue pour détecter et diagnostiquer automatiquement les problèmes de performances et opérationnels dans les bases de données. Ainsi, il est désormais possible de résoudre en quelques minutes des problèmes qui demandaient auparavant aux développeurs plusieurs jours de travail. DevOps Guru pour RDS renforce les capacités de DevOps Guru pour détecter, diagnostiquer et résoudre divers problèmes liés aux bases de données dans Amazon RDS (notamment la surexploitation des ressources et les comportements défectueux des requêtes SQL). Lorsqu'un problème survient, Amazon DevOps Guru pour RDS en informe immédiatement les développeurs et fournit des informations de diagnostic, des détails sur l'étendue du problème et des recommandations intelligentes de correction pour aider les clients à résoudre rapidement les goulots d'étranglement de performances liés aux bases de données et les problèmes opérationnels.

Amazon DevOps Guru for RDS est conçu pour supprimer les efforts manuels et réduire le temps (de plusieurs heures et jours à quelques minutes) pour détecter et résoudre les goulots d'étranglement de performance difficiles à trouver dans votre charge de travail de base de données relationnelle. Vous pouvez activer le service DevOps Guru pour RDS pour chaque Amazon Aurora et base de données Amazon RDS for PostgreSQL, et il détectera alors automatiquement les problèmes de performances de vos charges de travail, vous envoie des alertes sur chaque problème, explique les résultats et recommande des actions pour les résoudre. DevOps Guru pour RDS contribue à rendre l'administration des bases de données plus accessible aux non-experts et aide les experts en bases de données afin qu'ils puissent gérer encore davantage de bases de données.

Amazon DevOps Guru pour RDS analyse les données de télémétrie collectées par l’Analyse des performances d'Amazon RDS (PI). DevOps Guru pour RDS n'utilise aucune de vos données stockées dans la base de données lors de l'analyse. DevOps Guru pour RDS recherche des modèles problématiques dans la télémétrie de l'analyse des performances à l'aide d'une combinaison de règles et de techniques basées sur le ML, et informe les clients lorsque de tels modèles sont détectés.

Pour démarrer, activez l’Analyse des performances d’Amazon RDS dans la console Amazon RDS, puis accédez à la console Amazon DevOps Guru afin d’activer le service pour vos ressources Amazon Aurora, d’autres ressources prises en charge ou l’ensemble de votre compte. Vous pouvez également activer Amazon DevOps Guru pour RDS pour une base de données Amazon Aurora en créant une base de données à partir de la console Amazon RDS. De plus, vous avez également la possibilité d'activer Amazon DevOps Guru pour RDS à partir de la page Analyse des performances (PI). Avec DevOps Guru, vous pouvez choisir la portée de votre analyse pour qu’elle couvre l’ensemble de votre compte AWS, spécifier les piles AWS CloudFormation à faire analyser par DevOps Guru, ou utiliser les balises AWS pour créer le groupement de ressources que vous souhaitez que DevOps Guru analyse.

Amazon DevOps Guru pour RDS permet d’identifier un large éventail de problèmes de performance susceptibles d’affecter la qualité de service des applications, tels que l’accumulation de verrouillages, les tempêtes de connexions, les régressions SQL, la contention de CPU et des I/O, les problèmes de mémoire et les paramètres mal configurés.

L'analyse des performances d'Amazon RDS est une fonction de réglage et de surveillance des performances de bases de données qui collecte et affiche les métriques de performances des bases de données Amazon RDS, vous aidant ainsi à évaluer rapidement l'état de votre base de données et à déterminer quand et où agir. Amazon DevOps Guru pour RDS surveille ces métriques, détecte les problèmes de performances de votre base de données, analyse les métriques, puis vous indique ce qui ne va pas et ce que vous pouvez faire.

DevOps Guru pour Serveless

Amazon DevOps Guru pour Serverless est une nouvelle fonctionnalité optimisée par ML et disponible dans Amazon DevOps Guru. Elle est conçue pour détecter et diagnostiquer automatiquement les problèmes de performances et opérationnels des applications sans serveur créées à l’aide de ressources AWS. DevOps Guru for Serverless étend les capacités de DevOps Guru pour détecter, diagnostiquer et recommander des corrections pour les applications sans serveur (ex : dégradation de la latence des performances, épuisement des ressources, etc.). Il fournit des informations réactives pour les problèmes en cours affectant l’application afin de vous aider à les résoudre plus rapidement. Par ailleurs, il fournit des informations proactives pour signaler rapidement les problèmes potentiels de vos applications et de votre infrastructure, vous permettant de réagir plus rapidement et de réduire les temps d’arrêt et les coûts opérationnels.

Amazon DevOps Guru pour Serverless vous permet de surveiller vos applications sans serveur pour détecter les problèmes de performances et opérationnels. Il ne nécessite pas de configuration manuelle ni d’expertise approfondie en machine learning ou en systèmes sans serveur. Ce service est conçu pour raccourcir la durée (de quelques heures à quelques minutes) nécessaire pour détecter et résoudre les problèmes de fiabilité, de performances et de fonctionnement difficiles à détecter pour vos applications sans serveur. Par ailleurs, DevOps Guru for Serverless détecte en amont les problèmes potentiellement susceptibles d’avoir un impact sur votre application, ce qui vous permet d’atténuer les problèmes avant qu’ils n’affectent les utilisateurs.

Amazon DevOps Guru pour Serverless ingère et analyse automatiquement les métriques et les journaux de l’ensemble des ressources des applications sans serveur afin de définir les critères opérationnels nécessaires au bon fonctionnement des applications. Le service détecte ensuite tout écart par rapport à la référence établie. Lorsque DevOps Guru détecte que l'application est dans un état anormal, il alerte les opérateurs du problème en donnant des détails pertinents, p. ex. les ressources impliquées, la chronologie du problème et les événements associés, pour les aider à comprendre rapidement l'impact potentiel et les causes probables du problème. Il est également conçu pour fournir des options pour la résolution ou la réduction.

En quelques clics, vous pouvez commencer à surveiller vos applications sans serveur en activant Amazon DevOps Guru sur le compte AWS de votre application sans serveur. Vous pouvez définir le périmètre de couverture pour qu’il recouvre l’intégralité de votre compte AWS, ou vous pouvez prescrire les piles AWS CloudFormation spécifiques ou utiliser des identifications AWS pour créer le groupement de ressources que vous souhaitez faire analyser par DevOps Guru.

DevOps Guru pour Serverless utilise le ML pour mettre en corrélation les anomalies dans les métriques et les journaux avec les évènements opérationnels. Ensuite, le service vous fournit des informations analytiques contextuelles pour vous aider à déterminer les mesures correctives appropriées. En outre, DevOps Guru pour Serverless détecte rapidement les problèmes potentiels afin que vous puissiez en atténuer la portée avant qu'ils n'affectent vos applications. On distingue trois types d’informations proactives :

  • Configuration des ressources : Amazon DevOps Guru for Serverless détecte que l’application présente une configuration des ressources non conforme aux bonnes pratiques AWS. Par exemple, imaginons une application basée sur Lambda avec un point de terminaison API Gateway. La fonction Lambda a des invocations au-delà de la concurrence de la fonction actuellement allouée. Cela entraîne un débordement continu des requêtes, provoquant des démarrages à froid, et par conséquent une latence dégradée et des coûts potentiellement plus élevés. DevOps Guru détecte ce problème et recommande proactivement d’augmenter la simultanéité allouée de la fonction Lambda.
  • Épuisement des ressources : Amazon DevOps Guru for Serverless détecte les risques que certaines ressources atteignent leur limite en fonction des tendances d’utilisation des applications. Exemple : un nœud Elastic Search présente une fuite de mémoire lente qui ne cesse de croître. DevOps Guru le détecte et prédit que la mémoire atteindra bientôt la limite de capacité maximale. Il génère en conséquence une analyse proactive recommandant de corriger l’accumulation de mémoire.
  • Utilisation des ressources : Amazon DevOps Guru for Serverless détecte quand les ressources de l’application sont sous-utilisées. Par exemple, la fonction DynamoDB d’une application a provisionné des unités de capacité d’écriture qui dépassent largement la consommation réelle. DevOps Guru détecte le problème et recommande de réduire la capacité d’écriture provisionnée de DynamoDB.

Amazon DevOps Guru pour Serverless fournit des informations réactives pour les problèmes qui affectent l’application (dégradation de la latence, erreurs 5xx, etc.) pour vous aider à les résoudre rapidement. Amazon DevOps Guru for Serverless fournit des informations proactives pour signaler rapidement les problèmes potentiels de vos applications et de votre infrastructure, vous permettant de réagir rapidement et de réduire les temps d’arrêt coûteux et les coûts d’exploitation.

Tarification et facturation

Avec Amazon DevOps Guru, vous payez uniquement ce que vous utilisez. Il n'y a aucun engagement initial ni aucuns frais minimaux. Après avoir activé DevOps Guru et spécifié les applications que vous souhaitez contrôler, DevOps Guru commence l’analyse des données opérationnelles des ressources que ces applications utilisent. Votre facture repose sur deux éléments : les frais d'analyse des ressources AWS et les frais des appels d'API DevOps Guru. Pour en savoir plus, consultez notre page de tarification.

Les types de ressources AWS (compartiment Amazon S3, instance Amazon EC2, etc.) analysés par DevOps Guru sont répartis entre deux groupes de tarification. Les frais pour une ressource spécifique AWS dépendent du groupe de tarification associé à celle‑ci : A ou B.

Non, vous payez pour le nombre d’heures de ressources AWS analysées, pour chaque ressource active. Une ressource est active uniquement si elle produit des paramètres, évènement ou des registres d'entrées dans l'heure.

DevOps Guru analyse plus de 25 types de ressources AWS différents (compartiment Amazon S3, instance Amazon EC2, etc.). La prise en charge d’autres types de ressources sera prochainement disponible.

Au lieu de choisir des ressources AWS spécifiques à analyser, spécifiez le périmètre d’analyse des ressources. À partir de votre sélection, DevOps Guru analyse les données opérationnelle pour toutes les ressources AWS prises en charge dans votre périmètre de couverture. Vous pouvez choisir l'intégralité du compte, des piles AWS CloudFormation spécifiques ou utiliser les identifications AWS pour créer le regroupement de ressources que vous souhaitez que DevOps Guru analyse comme limite de couverture. Quand vous ajoutez de nouvelles ressources à votre périmètre de couverture (compte ou pile CloudFormation), DevOps Guru commence automatiquement l'analyse des ressources supplémentaires. De même, DevOps Guru arrête l'analyse et la facturation des ressources que vous supprimez de votre compte ou de la pile CloudFormation et que DevOps Guru analyse.

Dans le cadre de la tarification DevOps Guru existante pour les ressources RDS, la fonctionnalité Amazon DevOps Guru pour RDS est proposée aux clients sans frais supplémentaires. DevOps Guru segmente les types de ressources qu'il évalue en deux groupes. Le groupe A comprend AWS Lambda et Amazon S3, et le groupe B comprend Amazon RDS, Amazon EC2, les clusters Amazon Redshift et 25 autres types de ressources AWS. Le groupe A est facturé à 0,0028 USD par ressource et par heure (ce qui équivaut à environ 2 USD par ressource pour 30 jours). Le groupe B est facturé à 0,0042 USD par ressource et par heure (ce qui équivaut à environ 3 USD par ressource pour 30 jours). Pour en savoir plus, consultez notre page de tarification.

Vous pouvez utiliser l’estimateur de coûts de DevOps Guru afin de déterminer les frais liés à l’analyse des ressources. Les ressources sélectionnées sont analysées pour estimer les coûts mensuels. Par défaut, l'estimateur de coûts suppose que les ressources actives analysées sont utilisées en permanence. Vous pouvez modifier ce paramètre pour chaque service analysé en fonction de votre estimation d'utilisation afin de mettre à jour l'estimation des coûts mensuels.

Si vous configurez Amazon Simple Notification Service (SNS) pour recevoir des informations à propos des événements DevOps Guru, des frais additionnels s’appliquent conformément à la tarification standard Amazon SNS. Par ailleurs, si vous configurez la réception d’un OpsItem pour les informations analytiques DevOps Guru, des frais additionnels s’appliquent conformément à la tarification standard AWS Systems Manager.

Oui, l’Offre gratuite d’AWS inclut l’analyse DevOps Guru de 7 200 heures de ressources AWS pour chacun des groupes de ressources A et B, et l’utilisation de 10 000 appels d’API DevOps Guru par mois pendant trois mois.

Amazon DevOps Guru est disponible dans les régions AWS suivantes : USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Californie du Nord), USA Ouest (Oregon), Canada (Centre), Europe (Francfort), Europe (Irlande), Europe (Stockholm), Europe (Londres), Europe (Paris), Asie-Pacifique (Mumbai), Asie-Pacifique (Séoul), Amérique du Sud (São Paulo), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney) et Asie-Pacifique (Tokyo). D’autres régions seront bientôt disponibles. Vous pouvez également vous référer à la liste des services régionaux AWS.