Guide d'examen AWS Certified Data Engineer - Associate (DEA-C01)
Version 1.0 DEA-C01
Introduction
L'examen AWS Certified Data Engineer - Associate (DEA-C01) valide la capacitĂ© d'un candidat Ă mettre en Ćuvre des pipelines de donnĂ©es et Ă surveiller, Ă dĂ©panner et Ă optimiser les problĂšmes de coĂ»ts et de performances conformĂ©ment aux meilleures pratiques.
L'examen valide également la capacité d'un candidat à effectuer les tùches suivantes :
- Ingérer et transformer les données, et orchestrer les pipelines de données tout en appliquant des concepts de programmation.
- Choisir un magasin de données optimal, concevoir des modÚles de données, cataloguer les schémas de données et gérer les cycles de vie des données.
- Opérationnaliser, maintenir et surveiller les pipelines de données. Analyser les données et assurer la qualité des données.
- Mettre en Ćuvre l'authentification, l'autorisation, le chiffrement des donnĂ©es, la confidentialitĂ© et la gouvernance appropriĂ©s. Activer la journalisation.
Description du candidat cible
Le candidat cible devrait avoir l'équivalent de 2 à 3 ans d'expérience en ingénierie des données. Le candidat cible devrait comprendre les effets du volume, de la variété et de la vitesse sur l'ingestion, la transformation, la modélisation, la sécurité, la gouvernance, la confidentialité, la conception de schéma et la conception optimale du magasin de données. De plus, le candidat cible devrait avoir au moins 1 à 2 ans d'expérience pratique avec les services AWS.
Connaissances générales en informatique recommandées
Le candidat cible devrait avoir les connaissances générales en informatique suivantes :
- Configuration et maintenance des pipelines d'extraction, de transformation et de chargement (ETL) de l'ingestion Ă la destination
- Application de concepts de programmation de haut niveau mais indépendants du langage, comme requis par le pipeline
- Utilisation des commandes Git pour le contrĂŽle des versions
- Utilisation des lacs de données pour stocker les données
- Concepts généraux pour la mise en réseau, le stockage et le calcul
Connaissances AWS recommandées
Le candidat cible devrait avoir les connaissances AWS suivantes :
- Comment utiliser les services AWS pour accomplir les tùches énumérées dans la section Introduction de ce guide d'examen
- Une compréhension des services AWS pour le chiffrement, la gouvernance, la protection et la journalisation de toutes les données qui font partie des pipelines de données
- La capacité de comparer les services AWS pour comprendre les différences de coût, de performances et de fonctionnalités entre les services
- Comment structurer les requĂȘtes SQL et comment exĂ©cuter des requĂȘtes SQL sur les services AWS
- Une compréhension de la maniÚre d'analyser les données, de vérifier la qualité des données et d'assurer la cohérence des données à l'aide des services AWS
TĂąches professionnelles hors du champ d'application du candidat cible
La liste suivante contient des tùches professionnelles que le candidat cible n'est pas censé pouvoir effectuer. Cette liste n'est pas exhaustive. Ces tùches sont hors du champ d'application de l'examen :
- Effectuer des tĂąches d'intelligence artificielle et d'apprentissage automatique (IA/ML).
- Démontrer des connaissances de la syntaxe spécifique au langage de programmation.
- Tirer des conclusions commerciales à partir des données.
Reportez-vous à l'Annexe pour obtenir une liste des services et fonctionnalités AWS inclus dans le champ d'application et une liste des services et fonctionnalités AWS exclus du champ d'application.
Contenu de l'examen
Types de réponses
L'examen comporte deux types de questions :
- Choix multiple : PossÚde une réponse correcte et trois réponses incorrectes (distracteurs)
- Choix multiple : Comporte deux réponses correctes ou plus parmi cinq réponses ou plus
Sélectionnez une ou plusieurs réponses qui complÚtent le mieux l'énoncé ou qui répondent le mieux à la question. Les distracteurs, ou réponses incorrectes, sont des options de réponse qu'un candidat ayant des connaissances ou des compétences incomplÚtes pourrait choisir. Les distracteurs sont généralement des réponses plausibles qui correspondent au domaine de contenu.
Les questions sans réponse sont notées comme incorrectes ; il n'y a pas de pénalité pour deviner. L'examen comprend 50 questions qui affectent votre score.
Contenu non noté
L'examen comprend 15 questions non notées qui n'affectent pas votre score. AWS collecte des informations sur la performance de ces questions non notées pour les évaluer en vue d'une utilisation future en tant que questions notées. Ces questions non notées ne sont pas identifiées dans l'examen.
Résultats de l'examen
L'examen AWS Certified Data Engineer - Associate (DEA-C01) comporte une désignation de réussite ou d'échec. L'examen est noté par rapport à une norme minimale établie par les professionnels d'AWS qui suivent les meilleures pratiques et les lignes directrices de l'industrie de la certification.
Les rĂ©sultats de votre examen sont rapportĂ©s sous la forme d'un score normalisĂ© de 100 Ă 1 000. Le score de passage minimal est de 720. Votre score indique comment vous vous ĂȘtes comportĂ© dans l'ensemble de l'examen et si vous avez rĂ©ussi. Les modĂšles de notation normalisĂ©s aident Ă Ă©quivaler les scores entre plusieurs formulaires d'examen qui peuvent avoir des niveaux de difficultĂ© lĂ©gĂšrement diffĂ©rents.
Votre rapport de score pourrait contenir un tableau des classifications de vos performances au niveau de chaque section. L'examen utilise un modÚle de notation compensatoire, ce qui signifie que vous n'avez pas besoin d'obtenir un score de passage dans chaque section. Vous devez seulement réussir l'examen dans son ensemble.
Chaque section de l'examen a une pondération spécifique, de sorte que certaines sections comportent plus de questions que d'autres. Le tableau des classifications contient des informations générales qui mettent en évidence vos points forts et vos points faibles. Soyez prudent lorsque vous interprétez les commentaires au niveau de la section.
Plan de contenu
Ce guide d'examen inclut les pondérations, les domaines de contenu et les énoncés de tùche pour l'examen. Ce guide ne fournit pas de liste exhaustive du contenu de l'examen. Cependant, un contexte supplémentaire pour chaque énoncé de tùche est disponible pour vous aider à vous préparer à l'examen.
L'examen comporte les domaines de contenu et les pondérations suivants :
- Domaine 1 : Ingestion et transformation des données (34 % du contenu noté)
- Domaine 2 : Gestion des magasins de données (26 % du contenu noté)
- Domaine 3 : Opérations et support des données (22 % du contenu noté)
- Domaine 4 : Sécurité et gouvernance des données (18 % du contenu noté)
Domaine 1 : Ingestion et transformation des données
ĂnoncĂ© de tĂąche 1.1 : Effectuer l'ingestion des donnĂ©es.
Connaissances en :
- Caractéristiques de débit et de latence des services AWS qui ingÚrent des données
- ModÚles d'ingestion de données (par exemple, fréquence et historique des données)
- Ingestion de données en continu
- Ingestion de données par lots (par exemple, ingestion programmée, ingestion pilotée par événements)
- Rejouabilité des pipelines d'ingestion de données
- Transactions de données statiques et sans état
Compétences en :
- Lecture de données à partir de sources en continu (par exemple, Amazon Kinesis, Amazon Managed Streaming for Apache Kafka [Amazon MSK], Amazon DynamoDB Streams, AWS Database Migration Service [AWS DMS], AWS Glue, Amazon Redshift)
- Lecture de données à partir de sources par lots (par exemple, Amazon S3, AWS Glue, Amazon EMR, AWS DMS, Amazon Redshift, AWS Lambda, Amazon AppFlow)
- Mise en Ćuvre des options de configuration appropriĂ©es pour l'ingestion par lots
- Consommation des API de données
- Configuration de planificateurs à l'aide d'Amazon EventBridge, d'Apache Airflow ou de planifications basées sur l'heure pour les tùches et les crawlers
- Configuration de déclencheurs d'événements (par exemple, notifications d'événements Amazon S3, EventBridge)
- Appel d'une fonction Lambda Ă partir d'Amazon Kinesis
- Création de listes d'autorisation pour les adresses IP afin de permettre les connexions aux sources de données
- Mise en Ćuvre de la limitation et du dĂ©passement des limites de dĂ©bit (par exemple, DynamoDB, Amazon RDS, Kinesis)
- Gestion de l'élargissement et de la réduction pour la distribution de données en continu
ĂnoncĂ© de tĂąche 1.2 : Transformer et traiter les donnĂ©es.
Connaissances en :
- Création de pipelines ETL en fonction des exigences commerciales
- Volume, vitesse et variété des données (par exemple, données structurées, données non structurées)
- Informatique en nuage et informatique distribuée
- Utilisation d'Apache Spark pour traiter les données
- Emplacements de stockage intermédiaire des données
Compétences en :
- Optimisation de l'utilisation des conteneurs pour répondre aux besoins de performances (par exemple, Amazon Elastic Kubernetes Service [Amazon EKS], Amazon Elastic Container Service [Amazon ECS])
- Connexion à différentes sources de données (par exemple, Java Database Connectivity [JDBC], Open Database Connectivity [ODBC])
- Intégration de données provenant de plusieurs sources
- Optimisation des coûts lors du traitement des données
- Mise en Ćuvre de services de transformation des donnĂ©es en fonction des exigences (par exemple, Amazon EMR, AWS Glue, Lambda, Amazon Redshift)
- Transformation des données entre les formats (par exemple, de .csv à Apache Parquet)
- Dépannage et débogage des échecs de transformation courants et des problÚmes de performances
- Création d'API de données pour rendre les données accessibles à d'autres systÚmes à l'aide de services AWS
ĂnoncĂ© de tĂąche 1.3 : Orchestrer les pipelines de donnĂ©es.
Connaissances en :
- Comment intégrer les différents services AWS pour créer des pipelines ETL
- Architecture pilotée par les événements
- Comment configurer les services AWS pour les pipelines de données en fonction des planifications ou des dépendances
- Workflows sans serveur
Compétences en :
- Utilisation des services d'orchestration pour construire des workflows pour les pipelines de données ETL (par exemple, Lambda, EventBridge, Amazon Managed Workflows for Apache Airflow [Amazon MWAA], AWS Step Functions, AWS Glue workflows)
- Construction de pipelines de données pour la performance, la disponibilité, l'évolutivité, la résilience et la tolérance aux pannes
- Mise en Ćuvre et maintenance de workflows sans serveur
- Utilisation des services de notification pour envoyer des alertes (par exemple, Amazon Simple Notification Service [Amazon SNS], Amazon Simple Queue Service [Amazon SQS])
ĂnoncĂ© de tĂąche 1.4 : Appliquer les concepts de programmation.
Connaissances en :
- IntĂ©gration et livraison continues (CI/CD) (mise en Ćuvre, test et dĂ©ploiement de pipelines de donnĂ©es)
- RequĂȘtes SQL (pour les requĂȘtes de sources de donnĂ©es et les transformations de donnĂ©es)
- Infrastructure as code (IaC) pour des déploiements reproductibles (par exemple, AWS Cloud Development Kit [AWS CDK], AWS CloudFormation)
- Informatique distribuée
- Structures de données et algorithmes (par exemple, structures de données graphiques et structures de données en arbre)
- Optimisation des requĂȘtes SQL
Compétences en :
- Optimisation du code pour réduire le temps d'exécution pour l'ingestion et la transformation des données
- Configuration des fonctions Lambda pour répondre aux besoins de concurrence et de performances
- ExĂ©cution de requĂȘtes SQL pour transformer les donnĂ©es (par exemple, procĂ©dures stockĂ©es Amazon Redshift)
- Structuration des requĂȘtes SQL pour rĂ©pondre aux exigences des pipelines de donnĂ©es
- Utilisation des commandes Git pour effectuer des actions telles que la création, la mise à jour, le clonage et la création de branches de dépÎts
- Utilisation du modÚle d'application serverless AWS (AWS SAM) pour empaqueter et déployer des pipelines de données sans serveur (par exemple, fonctions Lambda, Step Functions, tables DynamoDB)
- Utilisation et montage de volumes de stockage Ă partir de fonctions Lambda
Domaine 2 : Gestion des magasins de données
ĂnoncĂ© de tĂąche 2.1 : Choisir un magasin de donnĂ©es.
Connaissances en :
- Plateformes de stockage et leurs caractéristiques
- Services et configurations de stockage pour des besoins de performances spécifiques
- Formats de stockage des données (par exemple, .csv, .txt, Parquet)
- Comment aligner le stockage des données avec les exigences de migration des données
- Comment déterminer la solution de stockage appropriée pour des modÚles d'accÚs spécifiques
- Comment gĂ©rer les verrous pour empĂȘcher l'accĂšs aux donnĂ©es (par exemple, Amazon Redshift, Amazon RDS)
Compétences en :
- Mise en Ćuvre des services de stockage appropriĂ©s pour des exigences de coĂ»t et de performances spĂ©cifiques (par exemple, Amazon Redshift, Amazon EMR, AWS Lake Formation, Amazon RDS, DynamoDB, Amazon Kinesis Data Streams, Amazon MSK)
- Configuration des services de stockage appropriés pour des modÚles d'accÚs et des exigences spécifiques (par exemple, Amazon Redshift, Amazon EMR, Lake Formation, Amazon RDS, DynamoDB)
- Application des services de stockage à des cas d'utilisation appropriés (par exemple, Amazon S3)
- Intégration d'outils de migration dans les systÚmes de traitement des données (par exemple, AWS Transfer Family)
- Mise en Ćuvre de mĂ©thodes de migration de donnĂ©es ou d'accĂšs Ă distance (par exemple, requĂȘtes fĂ©dĂ©rĂ©es Amazon Redshift, vues matĂ©rialisĂ©es Amazon Redshift, Amazon Redshift Spectrum)
ĂnoncĂ© de tĂąche 2.2 : Comprendre les systĂšmes de catalogage des donnĂ©es.
Connaissances en :
- Comment créer un catalogue de données
- Classification des données en fonction des exigences
- Composants des métadonnées et des catalogues de données
Compétences en :
- Utilisation des catalogues de données pour consommer des données à partir de la source des données
- Construction et référencement d'un catalogue de données (par exemple, AWS Glue Data Catalog, metastore Apache Hive)
- Découverte des schémas et utilisation des crawlers AWS Glue pour renseigner les catalogues de données
- Synchronisation des partitions avec un catalogue de données
- Création de nouvelles connexions source ou cible pour le catalogage (par exemple, AWS Glue)
ĂnoncĂ© de tĂąche 2.3 : GĂ©rer le cycle de vie