Guide d'examen AWS Certified Data Engineer - Associate (DEA-C01)

Version 1.0 DEA-C01

Introduction

L'examen AWS Certified Data Engineer - Associate (DEA-C01) valide la capacité d'un candidat à mettre en œuvre des pipelines de données et à surveiller, à dépanner et à optimiser les problèmes de coûts et de performances conformément aux meilleures pratiques.

L'examen valide également la capacité d'un candidat à effectuer les tâches suivantes :

Ingérer et transformer les données, et orchestrer les pipelines de données tout en appliquant des concepts de programmation.
Choisir un magasin de données optimal, concevoir des modèles de données, cataloguer les schémas de données et gérer les cycles de vie des données.
Opérationnaliser, maintenir et surveiller les pipelines de données. Analyser les données et assurer la qualité des données.
Mettre en œuvre l'authentification, l'autorisation, le chiffrement des données, la confidentialité et la gouvernance appropriés. Activer la journalisation.

Description du candidat cible

Le candidat cible devrait avoir l'équivalent de 2 à 3 ans d'expérience en ingénierie des données. Le candidat cible devrait comprendre les effets du volume, de la variété et de la vitesse sur l'ingestion, la transformation, la modélisation, la sécurité, la gouvernance, la confidentialité, la conception de schéma et la conception optimale du magasin de données. De plus, le candidat cible devrait avoir au moins 1 à 2 ans d'expérience pratique avec les services AWS.

Connaissances générales en informatique recommandées

Le candidat cible devrait avoir les connaissances générales en informatique suivantes :

Configuration et maintenance des pipelines d'extraction, de transformation et de chargement (ETL) de l'ingestion à la destination
Application de concepts de programmation de haut niveau mais indépendants du langage, comme requis par le pipeline
Utilisation des commandes Git pour le contrôle des versions
Utilisation des lacs de données pour stocker les données
Concepts généraux pour la mise en réseau, le stockage et le calcul

Connaissances AWS recommandées

Le candidat cible devrait avoir les connaissances AWS suivantes :

Comment utiliser les services AWS pour accomplir les tâches énumérées dans la section Introduction de ce guide d'examen
Une compréhension des services AWS pour le chiffrement, la gouvernance, la protection et la journalisation de toutes les données qui font partie des pipelines de données
La capacité de comparer les services AWS pour comprendre les différences de coût, de performances et de fonctionnalités entre les services
Comment structurer les requêtes SQL et comment exécuter des requêtes SQL sur les services AWS
Une compréhension de la manière d'analyser les données, de vérifier la qualité des données et d'assurer la cohérence des données à l'aide des services AWS

Tâches professionnelles hors du champ d'application du candidat cible

La liste suivante contient des tâches professionnelles que le candidat cible n'est pas censé pouvoir effectuer. Cette liste n'est pas exhaustive. Ces tâches sont hors du champ d'application de l'examen :

Effectuer des tâches d'intelligence artificielle et d'apprentissage automatique (IA/ML).
Démontrer des connaissances de la syntaxe spécifique au langage de programmation.
Tirer des conclusions commerciales à partir des données.

Reportez-vous à l'Annexe pour obtenir une liste des services et fonctionnalités AWS inclus dans le champ d'application et une liste des services et fonctionnalités AWS exclus du champ d'application.

Contenu de l'examen

Types de réponses

L'examen comporte deux types de questions :

Choix multiple : Possède une réponse correcte et trois réponses incorrectes (distracteurs)
Choix multiple : Comporte deux réponses correctes ou plus parmi cinq réponses ou plus

Sélectionnez une ou plusieurs réponses qui complètent le mieux l'énoncé ou qui répondent le mieux à la question. Les distracteurs, ou réponses incorrectes, sont des options de réponse qu'un candidat ayant des connaissances ou des compétences incomplètes pourrait choisir. Les distracteurs sont généralement des réponses plausibles qui correspondent au domaine de contenu.

Les questions sans réponse sont notées comme incorrectes ; il n'y a pas de pénalité pour deviner. L'examen comprend 50 questions qui affectent votre score.

Contenu non noté

L'examen comprend 15 questions non notées qui n'affectent pas votre score. AWS collecte des informations sur la performance de ces questions non notées pour les évaluer en vue d'une utilisation future en tant que questions notées. Ces questions non notées ne sont pas identifiées dans l'examen.

Résultats de l'examen

L'examen AWS Certified Data Engineer - Associate (DEA-C01) comporte une désignation de réussite ou d'échec. L'examen est noté par rapport à une norme minimale établie par les professionnels d'AWS qui suivent les meilleures pratiques et les lignes directrices de l'industrie de la certification.

Les résultats de votre examen sont rapportés sous la forme d'un score normalisé de 100 à 1 000. Le score de passage minimal est de 720. Votre score indique comment vous vous êtes comporté dans l'ensemble de l'examen et si vous avez réussi. Les modèles de notation normalisés aident à équivaler les scores entre plusieurs formulaires d'examen qui peuvent avoir des niveaux de difficulté légèrement différents.

Votre rapport de score pourrait contenir un tableau des classifications de vos performances au niveau de chaque section. L'examen utilise un modèle de notation compensatoire, ce qui signifie que vous n'avez pas besoin d'obtenir un score de passage dans chaque section. Vous devez seulement réussir l'examen dans son ensemble.

Chaque section de l'examen a une pondération spécifique, de sorte que certaines sections comportent plus de questions que d'autres. Le tableau des classifications contient des informations générales qui mettent en évidence vos points forts et vos points faibles. Soyez prudent lorsque vous interprétez les commentaires au niveau de la section.

Plan de contenu

Ce guide d'examen inclut les pondérations, les domaines de contenu et les énoncés de tâche pour l'examen. Ce guide ne fournit pas de liste exhaustive du contenu de l'examen. Cependant, un contexte supplémentaire pour chaque énoncé de tâche est disponible pour vous aider à vous préparer à l'examen.

L'examen comporte les domaines de contenu et les pondérations suivants :

Domaine 1 : Ingestion et transformation des données (34 % du contenu noté)
Domaine 2 : Gestion des magasins de données (26 % du contenu noté)
Domaine 3 : Opérations et support des données (22 % du contenu noté)
Domaine 4 : Sécurité et gouvernance des données (18 % du contenu noté)

Domaine 1 : Ingestion et transformation des données

Énoncé de tâche 1.1 : Effectuer l'ingestion des données.

Connaissances en :

Caractéristiques de débit et de latence des services AWS qui ingèrent des données
Modèles d'ingestion de données (par exemple, fréquence et historique des données)
Ingestion de données en continu
Ingestion de données par lots (par exemple, ingestion programmée, ingestion pilotée par événements)
Rejouabilité des pipelines d'ingestion de données
Transactions de données statiques et sans état

Compétences en :

Lecture de données à partir de sources en continu (par exemple, Amazon Kinesis, Amazon Managed Streaming for Apache Kafka [Amazon MSK], Amazon DynamoDB Streams, AWS Database Migration Service [AWS DMS], AWS Glue, Amazon Redshift)
Lecture de données à partir de sources par lots (par exemple, Amazon S3, AWS Glue, Amazon EMR, AWS DMS, Amazon Redshift, AWS Lambda, Amazon AppFlow)
Mise en œuvre des options de configuration appropriées pour l'ingestion par lots
Consommation des API de données
Configuration de planificateurs à l'aide d'Amazon EventBridge, d'Apache Airflow ou de planifications basées sur l'heure pour les tâches et les crawlers
Configuration de déclencheurs d'événements (par exemple, notifications d'événements Amazon S3, EventBridge)
Appel d'une fonction Lambda à partir d'Amazon Kinesis
Création de listes d'autorisation pour les adresses IP afin de permettre les connexions aux sources de données
Mise en œuvre de la limitation et du dépassement des limites de débit (par exemple, DynamoDB, Amazon RDS, Kinesis)
Gestion de l'élargissement et de la réduction pour la distribution de données en continu

Énoncé de tâche 1.2 : Transformer et traiter les données.

Connaissances en :

Création de pipelines ETL en fonction des exigences commerciales
Volume, vitesse et variété des données (par exemple, données structurées, données non structurées)
Informatique en nuage et informatique distribuée
Utilisation d'Apache Spark pour traiter les données
Emplacements de stockage intermédiaire des données

Compétences en :

Optimisation de l'utilisation des conteneurs pour répondre aux besoins de performances (par exemple, Amazon Elastic Kubernetes Service [Amazon EKS], Amazon Elastic Container Service [Amazon ECS])
Connexion à différentes sources de données (par exemple, Java Database Connectivity [JDBC], Open Database Connectivity [ODBC])
Intégration de données provenant de plusieurs sources
Optimisation des coûts lors du traitement des données
Mise en œuvre de services de transformation des données en fonction des exigences (par exemple, Amazon EMR, AWS Glue, Lambda, Amazon Redshift)
Transformation des données entre les formats (par exemple, de .csv à Apache Parquet)
Dépannage et débogage des échecs de transformation courants et des problèmes de performances
Création d'API de données pour rendre les données accessibles à d'autres systèmes à l'aide de services AWS

Énoncé de tâche 1.3 : Orchestrer les pipelines de données.

Connaissances en :

Comment intégrer les différents services AWS pour créer des pipelines ETL
Architecture pilotée par les événements
Comment configurer les services AWS pour les pipelines de données en fonction des planifications ou des dépendances
Workflows sans serveur

Compétences en :

Utilisation des services d'orchestration pour construire des workflows pour les pipelines de données ETL (par exemple, Lambda, EventBridge, Amazon Managed Workflows for Apache Airflow [Amazon MWAA], AWS Step Functions, AWS Glue workflows)
Construction de pipelines de données pour la performance, la disponibilité, l'évolutivité, la résilience et la tolérance aux pannes
Mise en œuvre et maintenance de workflows sans serveur
Utilisation des services de notification pour envoyer des alertes (par exemple, Amazon Simple Notification Service [Amazon SNS], Amazon Simple Queue Service [Amazon SQS])

Énoncé de tâche 1.4 : Appliquer les concepts de programmation.

Connaissances en :

Intégration et livraison continues (CI/CD) (mise en œuvre, test et déploiement de pipelines de données)
Requêtes SQL (pour les requêtes de sources de données et les transformations de données)
Infrastructure as code (IaC) pour des déploiements reproductibles (par exemple, AWS Cloud Development Kit [AWS CDK], AWS CloudFormation)
Informatique distribuée
Structures de données et algorithmes (par exemple, structures de données graphiques et structures de données en arbre)
Optimisation des requêtes SQL

Compétences en :

Optimisation du code pour réduire le temps d'exécution pour l'ingestion et la transformation des données
Configuration des fonctions Lambda pour répondre aux besoins de concurrence et de performances
Exécution de requêtes SQL pour transformer les données (par exemple, procédures stockées Amazon Redshift)
Structuration des requêtes SQL pour répondre aux exigences des pipelines de données
Utilisation des commandes Git pour effectuer des actions telles que la création, la mise à jour, le clonage et la création de branches de dépôts
Utilisation du modèle d'application serverless AWS (AWS SAM) pour empaqueter et déployer des pipelines de données sans serveur (par exemple, fonctions Lambda, Step Functions, tables DynamoDB)
Utilisation et montage de volumes de stockage à partir de fonctions Lambda

Domaine 2 : Gestion des magasins de données

Énoncé de tâche 2.1 : Choisir un magasin de données.

Connaissances en :

Plateformes de stockage et leurs caractéristiques
Services et configurations de stockage pour des besoins de performances spécifiques
Formats de stockage des données (par exemple, .csv, .txt, Parquet)
Comment aligner le stockage des données avec les exigences de migration des données
Comment déterminer la solution de stockage appropriée pour des modèles d'accès spécifiques
Comment gérer les verrous pour empêcher l'accès aux données (par exemple, Amazon Redshift, Amazon RDS)

Compétences en :

Mise en œuvre des services de stockage appropriés pour des exigences de coût et de performances spécifiques (par exemple, Amazon Redshift, Amazon EMR, AWS Lake Formation, Amazon RDS, DynamoDB, Amazon Kinesis Data Streams, Amazon MSK)
Configuration des services de stockage appropriés pour des modèles d'accès et des exigences spécifiques (par exemple, Amazon Redshift, Amazon EMR, Lake Formation, Amazon RDS, DynamoDB)
Application des services de stockage à des cas d'utilisation appropriés (par exemple, Amazon S3)
Intégration d'outils de migration dans les systèmes de traitement des données (par exemple, AWS Transfer Family)
Mise en œuvre de méthodes de migration de données ou d'accès à distance (par exemple, requêtes fédérées Amazon Redshift, vues matérialisées Amazon Redshift, Amazon Redshift Spectrum)

Énoncé de tâche 2.2 : Comprendre les systèmes de catalogage des données.

Connaissances en :

Comment créer un catalogue de données
Classification des données en fonction des exigences
Composants des métadonnées et des catalogues de données

Compétences en :

Utilisation des catalogues de données pour consommer des données à partir de la source des données
Construction et référencement d'un catalogue de données (par exemple, AWS Glue Data Catalog, metastore Apache Hive)
Découverte des schémas et utilisation des crawlers AWS Glue pour renseigner les catalogues de données
Synchronisation des partitions avec un catalogue de données
Création de nouvelles connexions source ou cible pour le catalogage (par exemple, AWS Glue)

Guide officiel de l'examen DEA-C01

Guide d'examen AWS Certified Data Engineer - Associate (DEA-C01)

Introduction

Description du candidat cible

Connaissances générales en informatique recommandées

Connaissances AWS recommandées

Tâches professionnelles hors du champ d'application du candidat cible

Contenu de l'examen

Types de réponses

Contenu non noté

Résultats de l'examen

Plan de contenu

Domaine 1 : Ingestion et transformation des données

Énoncé de tâche 1.1 : Effectuer l'ingestion des données.

Énoncé de tâche 1.2 : Transformer et traiter les données.

Énoncé de tâche 1.3 : Orchestrer les pipelines de données.

Énoncé de tâche 1.4 : Appliquer les concepts de programmation.

Domaine 2 : Gestion des magasins de données

Énoncé de tâche 2.1 : Choisir un magasin de données.

Énoncé de tâche 2.2 : Comprendre les systèmes de catalogage des données.

Énoncé de tâche 2.3 : Gérer le cycle de vie