AWS
Rapport de recherche Datadog : Bilan sur l'adoption de l'informatique sans serveur Rapport : Bilan sur l'adoption de l'informatique sans serveur

AWS

Crawler Crawler

Présentation

Associez Amazon Web Services (AWS) pour :

  • Consulter des mises à jour automatiques de statut AWS dans votre flux
  • Obtenir des métriques CloudWatch pour les hosts EC2 sans installer l’Agent
  • Appliquer un tag à vos hosts EC2 comportant des informations spécifiques à EC2 (p. ex., leur zone de disponibilité)
  • Consulter les événements de maintenance EC2 planifiés dans votre flux
  • Recueillir des métriques et des événements CloudWatch depuis de nombreux autres produits AWS
L'intégration Amazon de Datadog est conçue pour recueillir TOUTES les métriques en provenance de CloudWatch. Datadog s'efforce de mettre régulièrement à jour sa documentation afin d'inclure chaque sous-intégration. Toutefois, les métriques et les services proposés par les différents services cloud étant en permanente évolution, il est possible que la liste ne soit pas actuelle.
IntégrationDescription
API GatewayCréez, publiez, maintenez et sécurisez des API
AppstreamStreaming d’applications entièrement géré sur AWS
AppSyncUn service GraphQL offrant des fonctionnalités de synchronisation des données en temps réel et de programmation hors ligne
AthenaService de requêtes interactif sans serveur
Autos ScalingConfiguration du dimensionnement d’EC2
BillingFacturation et budgets
CloudFrontRéseau de diffusion de contenu local
CloudHSMModule de sécurité matérielle (HSM) géré
CloudSearchAccès aux fichiers de log et aux appels d’API AWS
CloudTrailAccès aux fichiers de log et aux appels d’API AWS
CodeBuildService de génération entièrement géré
CodeDeployAutomatisation des déploiements de code
CognitoInscription et connexion utilisateur sécurisées
ConnectUn centre de contacts clients fonctionnant en libre-service et basé sur le cloud
Direct ConnectConnexion réseau dédiée à AWS
DMSService de migration de base de données
DocumentDBBase de données compatible avec MongoDB
DynamoDBBase de données NoSQL
EBS (Elastic Block Store)Volumes de stockage permanent par bloc
EC2 (Elastic Cloud Compute)Capacité de calcul redimensionnable dans le cloud
EC2 SpotExploitation des capacités inutilisées d’EC2
ECS (Elastic Container Service)Service de gestion de conteneurs prenant en charge les conteneurs Docker
EFS (Elastic File System)Stockage de fichiers partagés
EKSElastic Container Service pour Kubernetes
Elastic TranscoderTranscodage de fichiers multimédias et de vidéos dans le cloud
ElastiCacheCache en mémoire dans le cloud
Elastic BeanstalkService pour le déploiement et le dimensionnement d’applications et de services Web
ELB (Elastic Load Balancing)Distribution du trafic entrant d’applications sur plusieurs instances Amazon EC2
EMR (Elastic Map Reduce)Traitement de données avec Hadoop
ES (Elasticsearch)Déploiement, utilisation et mise à l’échelle des clusters Elasticsearch
FirehoseCapture et chargement de données de streaming
GameliftHébergement de serveurs de jeux dédiés
GlueExtraction, transformation et chargement de données pour l’analyse
GuardDutyDétection des menaces intelligente
HealthVisibilité sur l’état de vos ressources, services et comptes AWS
InspectorÉvaluation automatisée de la sécurité
IOT (Internet of Things)Connexion d’appareils IoT à des services cloud
KinesisService de traitement en temps réel de grands flux de données distribués
KMS (Key Management Service)Création et contrôle des clés de chiffrement
LambdaService de calcul sans serveur
LexCréation de bots de discussion
Machine LearningCréation des modèles d’apprentissage automatique
MediaConnectTransport vidéo en direct
MediaConvertTraitement vidéo pour la diffusion et la distribution multi-écran
MediaPackagePréparation et protection de vidéos en vue de leur diffusion sur Internet
MediaTailorInsertion évolutive de publicités côté serveur
MQAgent de message géré pour ActiveMQ
Managed Streaming for KafkaConception et exécution d’applications qui utilisent Kafka pour le traitement des données de streaming
Passerelle NATAutoriser les instances d’un sous-réseau privé à se connecter à Internet ou à d’autres services AWS
NeptuneService de base de données orienté graph fiable et rapide conçu pour le cloud
OpsWorksGestion de la configuration
PollyService de synthèse vocale
RDS (Relational Database Service)Base de données relationnelle dans le cloud
RedshiftSolution d’entrepôt de données
RekognitionAnalyse d’images et de vidéos pour les applications
Route 53Gestion de noms de domaine et de trafic avec surveillance de la disponibilité
S3 (Simple Storage Service)Service de stockage dans le cloud hautement disponible et évolutif
SageMakerAlgorithmes et modèles d’apprentissage automatique
SES (Simple Email Service)Service économique d’envoi d’e-mails
SNS (Simple Notification System)Alertes et notifications
SQS (Simple Queue Service)Service de file d’attente de messagerie
Storage GatewayStockage cloud hybride
SWF (Simple Workflow Service)Gestion de workflows dans le cloud
VPC (Virtual Private Cloud)Lancement de ressources AWS dans un réseau virtuel
Web Application Firewall (WAF)Protection des applications Web contre les failles Web les plus courantes
WorkSpacesService de bureau sécurisé
X-RayCréation de traces pour les applications distribuées

Implémentation

La configuration de l’intégration de Datadog à Amazon Web Services nécessite de configurer la délégation de rôles à l’aide d’AWS IAM. Pour mieux comprendre le principe de délégation des rôles, reportez-vous au guide des bonnes pratiques pour AWS IAM.

Délégation des rôles

Choisissez la méthode que vous souhaitez utiliser pour configurer le rôle AWS nécessaire. Nous vous conseillons d’utiliser CloudFormation.

  1. Ouvrez le carré d’intégration AWS dans Datadog.
  2. Depuis l’onglet Configuration, choisissez Automatically Using CloudFormation. Si vous avez déjà un compte AWS associé, commencez par cliquer sur Add another account.
  3. Connectez-vous à la console AWS.
  4. Depuis la page CloudFormation, créez une nouvelle pile et spécifiez votre clé d’API Datadog.
  5. Mettez à jour le carré d’intégration Datadog/AWS en saisissant le nom du rôle IAM et l’ID du compte utilisé pour créer la pile CloudFormation.

AWS

  1. Créez un nouveau rôle dans la console IAM d’AWS.
  2. Sélectionnez le type de rôle Another AWS account.
  3. Pour Account ID, saisissez 464622532012 (identifiant de compte Datadog). Cela signifie que vous accordez à Datadog un accès en lecture seule à vos données AWS.
  4. Sélectionnez Require external ID et saisissez l’ID généré dans le carré d’intégration AWS. Assurez-vous de ne pas cocher Require MFA. Pour en savoir plus sur l’External ID, consultez ce document du guide de l’utilisateur d’IAM.
  5. Cliquez sur Next: Permissions.
  6. Si vous avez déjà créé la stratégie, sélectionnez-la sur cette page, puis passez à l’étape 12. Si ce n’est pas le cas, cliquez sur Create Policy afin d’ouvrir une nouvelle fenêtre.
  7. Sélectionnez l’onglet JSON. Afin de profiter de toutes les intégrations AWS proposées par Datadog, utilisez l’extrait de stratégie sous la zone de texte. Étant donné que d’autres composants sont ajoutés à une intégration, ces autorisations peuvent évoluer.
  8. Cliquez sur Review policy.
  9. Nommez la stratégie DatadogAWSIntegrationPolicy ou utilisez le nom de votre choix, et saisissez une description pertinente.
  10. Cliquez sur Create policy. Vous pouvez ensuite fermer cette fenêtre.
  11. Depuis la fenêtre « Create role », actualisez la liste des stratégies et sélectionnez celle que vous venez de créer.
  12. Cliquez sur Next: Review.
  13. Saisissez le nom DatadogAWSIntegrationRole ou un nom similaire pour le rôle, ainsi qu’une description pertinente. Cliquez sur Create role.

Étape facultative : si vous utilisez Terraform, configurez votre stratégie IAM Datadog à l’aide de l’intégration AWS avec Terraform.

Datadog

  1. Ouvrez le carré d’intégration AWS.
  2. Sélectionnez l’onglet Role Delegation, puis cliquez sur Manually.
  3. Saisissez votre ID de compte AWS sans tiret, p. ex. 123456789012. Votre ID de compte est indiqué dans l’ARN du rôle créé durant l’installation de l’intégration AWS.
  4. Saisissez le nom du rôle créé. Remarque : le nom de rôle saisi dans le carré d’intégration est sensible à la casse et doit correspondre parfaitement au nom du rôle créé sur AWS.
  5. Depuis le côté gauche de la fenêtre, choisissez les services pour lesquels vous souhaitez récupérer des métriques.
  6. Si vous le souhaitez, ajoutez des tags à l’ensemble des hosts et des métriques.
  7. Vous pouvez surveiller un sous-ensemble d’instances EC2 en saisissant les tags AWS correspondants dans la zone de texte to hosts with tag. Remarque : cela s’applique également aux volumes EBS associés à une instance.
  8. Vous pouvez surveiller un sous-ensemble de Lambdas en saisissant les tags AWS correspondants dans la zone de texte to Lambdas with tag.
  9. Cliquez sur Install Integration.

Stratégie IAM AWS Datadog

Les autorisations énumérées ci-dessous sont incluses dans le document de stratégie à l’aide de wildcards comme List* et Get*. Si vous avez besoin de stratégies strictes, utilisez les noms d’action complets indiqués et consultez la documentation sur l’API Amazon pour les services requis.

Toutes les autorisations

Si vous ne souhaitez pas accorder toutes les autorisations à la fois, nous vous conseillons d’utiliser au strict minimum les stratégies AmazonEC2ReadOnlyAccess et CloudWatchReadOnlyAccess. Pour en savoir plus sur les autorisations, consultez la section Autorisations de base.

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Action": [
                "apigateway:GET",
                "autoscaling:Describe*",
                "budgets:ViewBudget",
                "cloudfront:GetDistributionConfig",
                "cloudfront:ListDistributions",
                "cloudtrail:DescribeTrails",
                "cloudtrail:GetTrailStatus",
                "cloudwatch:Describe*",
                "cloudwatch:Get*",
                "cloudwatch:List*",
                "codedeploy:List*",
                "codedeploy:BatchGet*",
                "directconnect:Describe*",
                "dynamodb:List*",
                "dynamodb:Describe*",
                "ec2:Describe*",
                "ecs:Describe*",
                "ecs:List*",
                "elasticache:Describe*",
                "elasticache:List*",
                "elasticfilesystem:DescribeFileSystems",
                "elasticfilesystem:DescribeTags",
                "elasticfilesystem:DescribeAccessPoints",
                "elasticloadbalancing:Describe*",
                "elasticmapreduce:List*",
                "elasticmapreduce:Describe*",
                "es:ListTags",
                "es:ListDomainNames",
                "es:DescribeElasticsearchDomains",
                "health:DescribeEvents",
                "health:DescribeEventDetails",
                "health:DescribeAffectedEntities",
                "kinesis:List*",
                "kinesis:Describe*",
                "lambda:AddPermission",
                "lambda:GetPolicy",
                "lambda:List*",
                "lambda:RemovePermission",
                "logs:DeleteSubscriptionFilter",
                "logs:DescribeLogGroups",
                "logs:DescribeLogStreams",
                "logs:DescribeSubscriptionFilters",
                "logs:FilterLogEvents",
                "logs:PutSubscriptionFilter",
                "logs:TestMetricFilter",
                "rds:Describe*",
                "rds:List*",
                "redshift:DescribeClusters",
                "redshift:DescribeLoggingStatus",
                "route53:List*",
                "s3:GetBucketLogging",
                "s3:GetBucketLocation",
                "s3:GetBucketNotification",
                "s3:GetBucketTagging",
                "s3:ListAllMyBuckets",
                "s3:PutBucketNotification",
                "ses:Get*",
                "sns:List*",
                "sns:Publish",
                "sqs:ListQueues",
                "states:ListStateMachines",
                "states:DescribeStateMachine",
                "support:*",
                "tag:GetResources",
                "tag:GetTagKeys",
                "tag:GetTagValues",
                "xray:BatchGetTraces",
                "xray:GetTraceSummaries"
            ],
            "Effect": "Allow",
            "Resource": "*"
        }
    ]
}
Autorisations de base

L’intégration Datadog/AWS de base récupère des données à partir d’AWS CloudWatch. Votre document de stratégie doit au minimum autoriser les actions suivantes :

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Action": [
                "cloudwatch:Get*",
                "cloudwatch:List*",
                "ec2:Describe*",
                "support:*",
                "tag:GetResources",
                "tag:GetTagKeys",
                "tag:GetTagValues"
            ],
            "Effect": "Allow",
            "Resource": "*"
        }
    ]
}
Autorisation AWSDescription
cloudwatch:ListMetricsRépertorie les métriques CloudWatch disponibles.
cloudwatch:GetMetricDataRécupère des points de données pour une métrique donnée.
support:*Ajoute des métriques à propos des limites de service.
Nécessite un accès complet en raison des limites d’AWS.
tag:getResourcesRécupère des tags personnalisés en fonction du type de ressource.
tag:getTagKeysRécupère des clés de tag selon les régions d’un compte AWS.
tag:getTagValuesRécupère les valeurs de tag selon les régions d’un compte AWS.

L’API Resource Group Tagging vise notamment à réduire le nombre d’appels API requis pour recueillir des tags personnalisés. Pour en savoir plus, consultez la documentation relative aux stratégies sur les tags sur le site Web d’AWS.

GovCloud et Chine

  1. Ouvrez le carré d’intégration AWS.
  2. Sélectionnez l’onglet Access Keys (GovCloud or China Only).
  3. Saisissez votre clé d’accès et votre clé de secret AWS. Seules les clés d’accès et de secret pour GovCloud et la Chine sont acceptées.
  4. Depuis le côté gauche de la fenêtre, choisissez les services pour lesquels vous souhaitez récupérer des métriques.
  5. Si vous le souhaitez, ajoutez des tags à l’ensemble des hosts et des métriques.
  6. Vous pouvez surveiller un sous-ensemble d’instances EC2 en saisissant les tags AWS correspondants dans la zone de texte to hosts with tag. Remarque : cela s’applique également aux volumes EBS associés à une instance.
  7. Vous pouvez surveiller un sous-ensemble de Lambdas en saisissant les tags AWS correspondants dans la zone de texte to Lambdas with tag.
  8. Cliquez sur Install Integration.

Collecte de logs

Il existe deux façons d’envoyer des logs de service AWS à Datadog :

  • Destination Kinesis Firehose : utilisez la destination Datadog dans votre flux de diffusion Kinesis Firehose pour transmettre vos logs à Datadog
  • Cloudformation : déployez la fonction Lambda Datadog qui est abonnée aux compartiments S3 ou au groupe de logs CloudWatch et transmettez vos logs à Datadog

Nous vous conseillons fortement d’utiliser la destination Kinesis Firehose lorsque vous devez envoyer vos logs à plusieurs destinations différentes. En effet, si les groupes de logs CloudWatch sont limités à un seul abonnement, ce n’est pas le cas des flux Kinesis. Après avoir abonné le flux Kinesis aux groupes de logs, vous pouvez abonner plusieurs services à ce flux afin de tous leur transmettre les données de logs.

Données collectées

Métriques

aws.logs.incoming_bytes
(gauge)
The volume of log events in uncompressed bytes uploaded to Cloudwatch Logs.
Shown as byte
aws.logs.incoming_log_events
(count)
The number of log events uploaded to Cloudwatch Logs.
Shown as event
aws.logs.forwarded_bytes
(gauge)
The volume of log events in compressed bytes forwarded to the subscription destination.
Shown as byte
aws.logs.forwarded_log_events
(count)
The number of log events forwarded to the subscription destination.
Shown as event
aws.logs.delivery_errors
(count)
The number of log events for which CloudWatch Logs received an error when forwarding data to the subscription destination.
Shown as event
aws.logs.delivery_throttling
(count)
The number of log events for which CloudWatch Logs was throttled when forwarding data to the subscription destination.
Shown as event
aws.events.invocations
(count)
Measures the number of times a target is invoked for a rule in response to an event. This includes successful and failed invocations but does not include throttled or retried attempts until they fail permanently.
aws.events.failed_invocations
(count)
Measures the number of invocations that failed permanently. This does not include invocations that are retried or that succeeded after a retry attempt
aws.events.triggered_rules
(count)
Measures the number of triggered rules that matched with any event.
aws.events.matched_events
(count)
Measures the number of events that matched with any rule.
aws.events.throttled_rules
(count)
Measures the number of triggered rules that are being throttled.
aws.usage.call_count
(count)
The number of specified operations performed in your account
Shown as operation
aws.usage.resource_count
(count)
The number of specified resources in your account
Shown as resource

Événements

Vous pouvez configurer la collecte d’événements AWS pour chaque service AWS. Consultez la documentation des différents services AWS pour en savoir plus sur la collecte d’événements.

Tag

Les tags suivants sont recueillis à partir des intégrations AWS. Remarque : certains tags s’affichent uniquement pour des métriques spécifiques.

IntégrationClés de tag Datadog
Toutesregion
API Gatewayapiid, apiname, method, resource, stage
Auto Scalingautoscalinggroupname, autoscaling_group
Billingaccount_id, budget_name, budget_type, currency, servicename, time_unit
CloudFrontdistributionid
CodeBuildproject_name
CodeDeployapplication, creator, deployment_config, deployment_group, deployment_option, deployment_type, status
DirectConnectconnectionid
DynamoDBglobalsecondaryindexname, operation, streamlabel, tablename
EBSvolumeid, volume-name, volume-type
EC2autoscaling_group, availability-zone, image, instance-id, instance-type, kernel, name, security_group_name
ECSclustername, servicename, instance_id
EFSfilesystemid
[ElastiCache][]cachenodeid, cache_node_type, cacheclusterid, cluster_name, engine, engine_version, prefered_availability-zone, replication_group
ElasticBeanstalkenvironmentname, enviromentid
ELBavailability-zone, hostname, loadbalancername, name, targetgroup
EMRcluster_name, jobflowid
ESdedicated_master_enabled, ebs_enabled, elasticsearch_version, instance_type, zone_awareness_enabled
Firehosedeliverystreamname
Healthevent_category, status, service
IoTactiontype, protocol, rulename
Kinesisstreamname, name, state
KMSkeyid
Lambdafunctionname, resource, executedversion, memorysize, runtime
Machine Learningmlmodelid, requestmode
MQbroker, queue, topic
OpsWorksstackid, layerid, instanceid
Pollyoperation
RDSauto_minor_version_upgrade, dbinstanceclass, dbclusteridentifier, dbinstanceidentifier, dbname, engine, engineversion, hostname, name, publicly_accessible, secondary_availability-zone
Redshiftclusteridentifier, latency, nodeid, service_class, stage, wlmid
Route 53healthcheckid
S3bucketname, filterid, storagetype
SESLes clés de tag sont personnalisées dans AWS.
SNStopicname
SQSqueuename
VPCnategatewayid, vpnid, tunnelipaddress
WorkSpacesdirectoryid, workspaceid

Dépannage

Écart entre vos données dans CloudWatch et Datadog

Il est important de tenir compte des deux distinctions suivantes :

  1. Pour les counters AWS, un graphique défini sur « sum » « 1minute » affiche le nombre total d’occurrences en l’espace d’une minute, soit le taux par minute. Datadog affiche les données brutes à partir des valeurs AWS normalisées par seconde, peu importe l’intervalle sélectionné dans AWS. Cela explique pourquoi la valeur affichée dans Datadog peut être plus faible.
  2. Les valeurs minimales, maximales et moyennes n’ont généralement pas la même signification dans AWS et dans Datadog. Dans AWS, les latences moyenne, minimale et maximale correspondent à trois métriques distinctes recueillies. Lorsque Datadog récupère des métriques à partir d’AWS CloudWatch, la latence moyenne est transmise sous la forme de séries temporelles distinctes par ELB. Dans Datadog, lorsque vous sélectionnez les valeurs « min », « max » ou « avg », vous définissez les critères de rassemblement de séries temporelles. Par exemple, si vous cherchez à obtenir system.cpu.idle sans appliquer de filtre, une série est envoyée pour chaque host qui renvoie cette métrique. Ces séries doivent être combinées pour être représentées graphiquement. À l’inverse, si vous cherchez à obtenir system.cpu.idle pour un seul host, aucune agrégation n’est nécessaire. Les valeurs maximale et moyenne sont identiques.

Métriques en retard

Lorsque vous utilisez l’intégration AWS, Datadog récupère vos métriques via l’API CloudWatch. Il est possible que les données des métriques AWS accusent un léger retard, en raison des contraintes liées à l’API.

Pour commencer, l’API CloudWatch propose uniquement une analyse métrique par métrique afin d’extraire des données. Les API CloudWatch prévoient une limite de débit qui varie en fonction des informations d’authentification, de la région et du service. Les métriques sont transmises par AWS en fonction du niveau du compte. Par exemple, si vous payez pour des « métriques détaillées » dans AWS, vous y avez accès plus rapidement. Ce niveau de service pour les métriques détaillées s’applique également à la granularité. Ainsi, certaines métriques sont transmises toutes les minutes, tandis que d’autres sont envoyées toutes les cinq minutes.

Datadog vous permet de hiérarchiser certaines métriques d’un compte afin de les récupérer en priorité, en fonction de certaines circonstances. Contactez l’assistance Datadog pour en savoir plus.

Pour obtenir des métriques en temps quasi-réel, installez l’Agent Datadog sur le host. Pour en savoir plus, consultez l’article de blog de Datadog intitulé Don’t fear the Agent: Agent-based monitoring (en anglais).

Métriques manquantes

L’API CloudWatch renvoie uniquement les métriques avec des points de données. Ainsi, si un ELB ne possède aucune instance liée, aucune métrique associée à cet ELB n’apparaît dans Datadog.

Nombre aws.elb.healthy_host_count incorrect

Lorsque l’option d’équilibrage des charges entre zones est activée sur un ELB, toutes les instances liées à cet ELB font partie de toutes les zones de disponibilité (pour CloudWatch). Ainsi, si vous possédez deux instances dans 1a et trois dans ab, la métrique affiche cinq instances par zone de disponibilité. Puisque cela peut s’avérer contre-intuitif, nous avons ajouté de nouvelles métriques, aws.elb.healthy_host_count_deduped et aws.elb.un_healthy_host_count_deduped, qui affichent le nombre d’instances saines et non saines par zone de disponibilité, que vous ayez activé ou non l’option d’équilibrage des charges entre zones.

Hosts dupliqués lors de l’installation de l’Agent

Lors de l’installation de l’Agent sur un host AWS, il est possible que des hosts soient dupliqués pendant quelques heures sur la page d’infrastructure si vous avez défini manuellement le hostname dans la configuration de l’Agent. Ces doublons disparaîtront après quelques heures et ne seront pas pris en compte pour la facturation.