CC

Guide officiel de l'examen DEA-C01

Format de l'examen, domaines et conseils de pr\u00E9paration

Guide d'examen AWS Certified Data Engineer - Associate (DEA-C01)

Version 1.0 DEA-C01

Introduction

L'examen AWS Certified Data Engineer - Associate (DEA-C01) valide la capacitĂ© d'un candidat Ă  mettre en Ɠuvre des pipelines de donnĂ©es et Ă  surveiller, Ă  dĂ©panner et Ă  optimiser les problĂšmes de coĂ»ts et de performances conformĂ©ment aux meilleures pratiques.

L'examen valide également la capacité d'un candidat à effectuer les tùches suivantes :

  • IngĂ©rer et transformer les donnĂ©es, et orchestrer les pipelines de donnĂ©es tout en appliquant des concepts de programmation.
  • Choisir un magasin de donnĂ©es optimal, concevoir des modĂšles de donnĂ©es, cataloguer les schĂ©mas de donnĂ©es et gĂ©rer les cycles de vie des donnĂ©es.
  • OpĂ©rationnaliser, maintenir et surveiller les pipelines de donnĂ©es. Analyser les donnĂ©es et assurer la qualitĂ© des donnĂ©es.
  • Mettre en Ɠuvre l'authentification, l'autorisation, le chiffrement des donnĂ©es, la confidentialitĂ© et la gouvernance appropriĂ©s. Activer la journalisation.

Description du candidat cible

Le candidat cible devrait avoir l'équivalent de 2 à 3 ans d'expérience en ingénierie des données. Le candidat cible devrait comprendre les effets du volume, de la variété et de la vitesse sur l'ingestion, la transformation, la modélisation, la sécurité, la gouvernance, la confidentialité, la conception de schéma et la conception optimale du magasin de données. De plus, le candidat cible devrait avoir au moins 1 à 2 ans d'expérience pratique avec les services AWS.

Connaissances générales en informatique recommandées

Le candidat cible devrait avoir les connaissances générales en informatique suivantes :

  • Configuration et maintenance des pipelines d'extraction, de transformation et de chargement (ETL) de l'ingestion Ă  la destination
  • Application de concepts de programmation de haut niveau mais indĂ©pendants du langage, comme requis par le pipeline
  • Utilisation des commandes Git pour le contrĂŽle des versions
  • Utilisation des lacs de donnĂ©es pour stocker les donnĂ©es
  • Concepts gĂ©nĂ©raux pour la mise en rĂ©seau, le stockage et le calcul

Connaissances AWS recommandées

Le candidat cible devrait avoir les connaissances AWS suivantes :

  • Comment utiliser les services AWS pour accomplir les tĂąches Ă©numĂ©rĂ©es dans la section Introduction de ce guide d'examen
  • Une comprĂ©hension des services AWS pour le chiffrement, la gouvernance, la protection et la journalisation de toutes les donnĂ©es qui font partie des pipelines de donnĂ©es
  • La capacitĂ© de comparer les services AWS pour comprendre les diffĂ©rences de coĂ»t, de performances et de fonctionnalitĂ©s entre les services
  • Comment structurer les requĂȘtes SQL et comment exĂ©cuter des requĂȘtes SQL sur les services AWS
  • Une comprĂ©hension de la maniĂšre d'analyser les donnĂ©es, de vĂ©rifier la qualitĂ© des donnĂ©es et d'assurer la cohĂ©rence des donnĂ©es Ă  l'aide des services AWS

TĂąches professionnelles hors du champ d'application du candidat cible

La liste suivante contient des tùches professionnelles que le candidat cible n'est pas censé pouvoir effectuer. Cette liste n'est pas exhaustive. Ces tùches sont hors du champ d'application de l'examen :

  • Effectuer des tĂąches d'intelligence artificielle et d'apprentissage automatique (IA/ML).
  • DĂ©montrer des connaissances de la syntaxe spĂ©cifique au langage de programmation.
  • Tirer des conclusions commerciales Ă  partir des donnĂ©es.

Reportez-vous à l'Annexe pour obtenir une liste des services et fonctionnalités AWS inclus dans le champ d'application et une liste des services et fonctionnalités AWS exclus du champ d'application.

Contenu de l'examen

Types de réponses

L'examen comporte deux types de questions :

  • Choix multiple : PossĂšde une rĂ©ponse correcte et trois rĂ©ponses incorrectes (distracteurs)
  • Choix multiple : Comporte deux rĂ©ponses correctes ou plus parmi cinq rĂ©ponses ou plus

Sélectionnez une ou plusieurs réponses qui complÚtent le mieux l'énoncé ou qui répondent le mieux à la question. Les distracteurs, ou réponses incorrectes, sont des options de réponse qu'un candidat ayant des connaissances ou des compétences incomplÚtes pourrait choisir. Les distracteurs sont généralement des réponses plausibles qui correspondent au domaine de contenu.

Les questions sans réponse sont notées comme incorrectes ; il n'y a pas de pénalité pour deviner. L'examen comprend 50 questions qui affectent votre score.

Contenu non noté

L'examen comprend 15 questions non notées qui n'affectent pas votre score. AWS collecte des informations sur la performance de ces questions non notées pour les évaluer en vue d'une utilisation future en tant que questions notées. Ces questions non notées ne sont pas identifiées dans l'examen.

Résultats de l'examen

L'examen AWS Certified Data Engineer - Associate (DEA-C01) comporte une désignation de réussite ou d'échec. L'examen est noté par rapport à une norme minimale établie par les professionnels d'AWS qui suivent les meilleures pratiques et les lignes directrices de l'industrie de la certification.

Les rĂ©sultats de votre examen sont rapportĂ©s sous la forme d'un score normalisĂ© de 100 Ă  1 000. Le score de passage minimal est de 720. Votre score indique comment vous vous ĂȘtes comportĂ© dans l'ensemble de l'examen et si vous avez rĂ©ussi. Les modĂšles de notation normalisĂ©s aident Ă  Ă©quivaler les scores entre plusieurs formulaires d'examen qui peuvent avoir des niveaux de difficultĂ© lĂ©gĂšrement diffĂ©rents.

Votre rapport de score pourrait contenir un tableau des classifications de vos performances au niveau de chaque section. L'examen utilise un modÚle de notation compensatoire, ce qui signifie que vous n'avez pas besoin d'obtenir un score de passage dans chaque section. Vous devez seulement réussir l'examen dans son ensemble.

Chaque section de l'examen a une pondération spécifique, de sorte que certaines sections comportent plus de questions que d'autres. Le tableau des classifications contient des informations générales qui mettent en évidence vos points forts et vos points faibles. Soyez prudent lorsque vous interprétez les commentaires au niveau de la section.

Plan de contenu

Ce guide d'examen inclut les pondérations, les domaines de contenu et les énoncés de tùche pour l'examen. Ce guide ne fournit pas de liste exhaustive du contenu de l'examen. Cependant, un contexte supplémentaire pour chaque énoncé de tùche est disponible pour vous aider à vous préparer à l'examen.

L'examen comporte les domaines de contenu et les pondérations suivants :

  • Domaine 1 : Ingestion et transformation des donnĂ©es (34 % du contenu notĂ©)
  • Domaine 2 : Gestion des magasins de donnĂ©es (26 % du contenu notĂ©)
  • Domaine 3 : OpĂ©rations et support des donnĂ©es (22 % du contenu notĂ©)
  • Domaine 4 : SĂ©curitĂ© et gouvernance des donnĂ©es (18 % du contenu notĂ©)

Domaine 1 : Ingestion et transformation des données

ÉnoncĂ© de tĂąche 1.1 : Effectuer l'ingestion des donnĂ©es.

Connaissances en :

  • CaractĂ©ristiques de dĂ©bit et de latence des services AWS qui ingĂšrent des donnĂ©es
  • ModĂšles d'ingestion de donnĂ©es (par exemple, frĂ©quence et historique des donnĂ©es)
  • Ingestion de donnĂ©es en continu
  • Ingestion de donnĂ©es par lots (par exemple, ingestion programmĂ©e, ingestion pilotĂ©e par Ă©vĂ©nements)
  • RejouabilitĂ© des pipelines d'ingestion de donnĂ©es
  • Transactions de donnĂ©es statiques et sans Ă©tat

Compétences en :

  • Lecture de donnĂ©es Ă  partir de sources en continu (par exemple, Amazon Kinesis, Amazon Managed Streaming for Apache Kafka [Amazon MSK], Amazon DynamoDB Streams, AWS Database Migration Service [AWS DMS], AWS Glue, Amazon Redshift)
  • Lecture de donnĂ©es Ă  partir de sources par lots (par exemple, Amazon S3, AWS Glue, Amazon EMR, AWS DMS, Amazon Redshift, AWS Lambda, Amazon AppFlow)
  • Mise en Ɠuvre des options de configuration appropriĂ©es pour l'ingestion par lots
  • Consommation des API de donnĂ©es
  • Configuration de planificateurs Ă  l'aide d'Amazon EventBridge, d'Apache Airflow ou de planifications basĂ©es sur l'heure pour les tĂąches et les crawlers
  • Configuration de dĂ©clencheurs d'Ă©vĂ©nements (par exemple, notifications d'Ă©vĂ©nements Amazon S3, EventBridge)
  • Appel d'une fonction Lambda Ă  partir d'Amazon Kinesis
  • CrĂ©ation de listes d'autorisation pour les adresses IP afin de permettre les connexions aux sources de donnĂ©es
  • Mise en Ɠuvre de la limitation et du dĂ©passement des limites de dĂ©bit (par exemple, DynamoDB, Amazon RDS, Kinesis)
  • Gestion de l'Ă©largissement et de la rĂ©duction pour la distribution de donnĂ©es en continu

ÉnoncĂ© de tĂąche 1.2 : Transformer et traiter les donnĂ©es.

Connaissances en :

  • CrĂ©ation de pipelines ETL en fonction des exigences commerciales
  • Volume, vitesse et variĂ©tĂ© des donnĂ©es (par exemple, donnĂ©es structurĂ©es, donnĂ©es non structurĂ©es)
  • Informatique en nuage et informatique distribuĂ©e
  • Utilisation d'Apache Spark pour traiter les donnĂ©es
  • Emplacements de stockage intermĂ©diaire des donnĂ©es

Compétences en :

  • Optimisation de l'utilisation des conteneurs pour rĂ©pondre aux besoins de performances (par exemple, Amazon Elastic Kubernetes Service [Amazon EKS], Amazon Elastic Container Service [Amazon ECS])
  • Connexion Ă  diffĂ©rentes sources de donnĂ©es (par exemple, Java Database Connectivity [JDBC], Open Database Connectivity [ODBC])
  • IntĂ©gration de donnĂ©es provenant de plusieurs sources
  • Optimisation des coĂ»ts lors du traitement des donnĂ©es
  • Mise en Ɠuvre de services de transformation des donnĂ©es en fonction des exigences (par exemple, Amazon EMR, AWS Glue, Lambda, Amazon Redshift)
  • Transformation des donnĂ©es entre les formats (par exemple, de .csv Ă  Apache Parquet)
  • DĂ©pannage et dĂ©bogage des Ă©checs de transformation courants et des problĂšmes de performances
  • CrĂ©ation d'API de donnĂ©es pour rendre les donnĂ©es accessibles Ă  d'autres systĂšmes Ă  l'aide de services AWS

ÉnoncĂ© de tĂąche 1.3 : Orchestrer les pipelines de donnĂ©es.

Connaissances en :

  • Comment intĂ©grer les diffĂ©rents services AWS pour crĂ©er des pipelines ETL
  • Architecture pilotĂ©e par les Ă©vĂ©nements
  • Comment configurer les services AWS pour les pipelines de donnĂ©es en fonction des planifications ou des dĂ©pendances
  • Workflows sans serveur

Compétences en :

  • Utilisation des services d'orchestration pour construire des workflows pour les pipelines de donnĂ©es ETL (par exemple, Lambda, EventBridge, Amazon Managed Workflows for Apache Airflow [Amazon MWAA], AWS Step Functions, AWS Glue workflows)
  • Construction de pipelines de donnĂ©es pour la performance, la disponibilitĂ©, l'Ă©volutivitĂ©, la rĂ©silience et la tolĂ©rance aux pannes
  • Mise en Ɠuvre et maintenance de workflows sans serveur
  • Utilisation des services de notification pour envoyer des alertes (par exemple, Amazon Simple Notification Service [Amazon SNS], Amazon Simple Queue Service [Amazon SQS])

ÉnoncĂ© de tĂąche 1.4 : Appliquer les concepts de programmation.

Connaissances en :

  • IntĂ©gration et livraison continues (CI/CD) (mise en Ɠuvre, test et dĂ©ploiement de pipelines de donnĂ©es)
  • RequĂȘtes SQL (pour les requĂȘtes de sources de donnĂ©es et les transformations de donnĂ©es)
  • Infrastructure as code (IaC) pour des dĂ©ploiements reproductibles (par exemple, AWS Cloud Development Kit [AWS CDK], AWS CloudFormation)
  • Informatique distribuĂ©e
  • Structures de donnĂ©es et algorithmes (par exemple, structures de donnĂ©es graphiques et structures de donnĂ©es en arbre)
  • Optimisation des requĂȘtes SQL

Compétences en :

  • Optimisation du code pour rĂ©duire le temps d'exĂ©cution pour l'ingestion et la transformation des donnĂ©es
  • Configuration des fonctions Lambda pour rĂ©pondre aux besoins de concurrence et de performances
  • ExĂ©cution de requĂȘtes SQL pour transformer les donnĂ©es (par exemple, procĂ©dures stockĂ©es Amazon Redshift)
  • Structuration des requĂȘtes SQL pour rĂ©pondre aux exigences des pipelines de donnĂ©es
  • Utilisation des commandes Git pour effectuer des actions telles que la crĂ©ation, la mise Ă  jour, le clonage et la crĂ©ation de branches de dĂ©pĂŽts
  • Utilisation du modĂšle d'application serverless AWS (AWS SAM) pour empaqueter et dĂ©ployer des pipelines de donnĂ©es sans serveur (par exemple, fonctions Lambda, Step Functions, tables DynamoDB)
  • Utilisation et montage de volumes de stockage Ă  partir de fonctions Lambda

Domaine 2 : Gestion des magasins de données

ÉnoncĂ© de tĂąche 2.1 : Choisir un magasin de donnĂ©es.

Connaissances en :

  • Plateformes de stockage et leurs caractĂ©ristiques
  • Services et configurations de stockage pour des besoins de performances spĂ©cifiques
  • Formats de stockage des donnĂ©es (par exemple, .csv, .txt, Parquet)
  • Comment aligner le stockage des donnĂ©es avec les exigences de migration des donnĂ©es
  • Comment dĂ©terminer la solution de stockage appropriĂ©e pour des modĂšles d'accĂšs spĂ©cifiques
  • Comment gĂ©rer les verrous pour empĂȘcher l'accĂšs aux donnĂ©es (par exemple, Amazon Redshift, Amazon RDS)

Compétences en :

  • Mise en Ɠuvre des services de stockage appropriĂ©s pour des exigences de coĂ»t et de performances spĂ©cifiques (par exemple, Amazon Redshift, Amazon EMR, AWS Lake Formation, Amazon RDS, DynamoDB, Amazon Kinesis Data Streams, Amazon MSK)
  • Configuration des services de stockage appropriĂ©s pour des modĂšles d'accĂšs et des exigences spĂ©cifiques (par exemple, Amazon Redshift, Amazon EMR, Lake Formation, Amazon RDS, DynamoDB)
  • Application des services de stockage Ă  des cas d'utilisation appropriĂ©s (par exemple, Amazon S3)
  • IntĂ©gration d'outils de migration dans les systĂšmes de traitement des donnĂ©es (par exemple, AWS Transfer Family)
  • Mise en Ɠuvre de mĂ©thodes de migration de donnĂ©es ou d'accĂšs Ă  distance (par exemple, requĂȘtes fĂ©dĂ©rĂ©es Amazon Redshift, vues matĂ©rialisĂ©es Amazon Redshift, Amazon Redshift Spectrum)

ÉnoncĂ© de tĂąche 2.2 : Comprendre les systĂšmes de catalogage des donnĂ©es.

Connaissances en :

  • Comment crĂ©er un catalogue de donnĂ©es
  • Classification des donnĂ©es en fonction des exigences
  • Composants des mĂ©tadonnĂ©es et des catalogues de donnĂ©es

Compétences en :

  • Utilisation des catalogues de donnĂ©es pour consommer des donnĂ©es Ă  partir de la source des donnĂ©es
  • Construction et rĂ©fĂ©rencement d'un catalogue de donnĂ©es (par exemple, AWS Glue Data Catalog, metastore Apache Hive)
  • DĂ©couverte des schĂ©mas et utilisation des crawlers AWS Glue pour renseigner les catalogues de donnĂ©es
  • Synchronisation des partitions avec un catalogue de donnĂ©es
  • CrĂ©ation de nouvelles connexions source ou cible pour le catalogage (par exemple, AWS Glue)

ÉnoncĂ© de tĂąche 2.3 : GĂ©rer le cycle de vie