Guía de examen de AWS Certified Data Engineer - Associate (DEA-C01)

Versión 1.0 DEA-C01

Introducción

El examen AWS Certified Data Engineer - Associate (DEA-C01) valida la capacidad de un candidato para implementar canalizaciones de datos y monitorear, solucionar problemas y optimizar los problemas de costo y rendimiento de acuerdo con las mejores prácticas.

El examen también valida la capacidad del candidato para completar las siguientes tareas:

Ingerir y transformar datos, y orquestar canalizaciones de datos mientras se aplican conceptos de programación.
Elegir un almacén de datos óptimo, diseñar modelos de datos, catalogar esquemas de datos y administrar ciclos de vida de datos.
Operacionalizar, mantener y monitorear canalizaciones de datos. Analizar datos y asegurar la calidad de los datos.
Implementar la autenticación, autorización, cifrado de datos, privacidad y gobernanza apropiados. Habilitar el registro.

Descripción del candidato objetivo

El candidato objetivo debe tener el equivalente a 2-3 años de experiencia en ingeniería de datos. El candidato objetivo debe comprender los efectos del volumen, la variedad y la velocidad en la ingesta, transformación, modelado, seguridad, gobernanza, privacidad, diseño de esquemas y diseño óptimo de almacén de datos de los datos. Además, el candidato objetivo debe tener al menos 1-2 años de experiencia práctica con los servicios de AWS.

Conocimientos generales de TI recomendados

El candidato objetivo debe tener los siguientes conocimientos generales de TI:

Configuración y mantenimiento de canalizaciones de extracción, transformación y carga (ETL) desde la ingesta hasta el destino
Aplicación de conceptos de programación de alto nivel pero independientes del lenguaje, según lo requiera la canalización
Cómo usar comandos de Git para el control de origen
Cómo usar lagos de datos para almacenar datos
Conceptos generales de redes, almacenamiento y cómputo

Conocimientos de AWS recomendados

El candidato objetivo debe tener los siguientes conocimientos de AWS:

Cómo usar los servicios de AWS para lograr las tareas enumeradas en la sección de Introducción de esta guía de examen
Una comprensión de los servicios de AWS para el cifrado, la gobernanza, la protección y el registro de todos los datos que forman parte de las canalizaciones de datos
La capacidad de comparar los servicios de AWS para comprender las diferencias de costo, rendimiento y funcionalidad entre los servicios
Cómo estructurar consultas SQL y cómo ejecutar consultas SQL en los servicios de AWS
Una comprensión de cómo analizar datos, verificar la calidad de los datos y asegurar la coherencia de los datos mediante el uso de servicios de AWS

Tareas laborales que están fuera del alcance del candidato objetivo

La siguiente lista contiene tareas laborales que no se espera que el candidato objetivo pueda realizar. Esta lista no es exhaustiva. Estas tareas están fuera del alcance del examen:

Realizar tareas de inteligencia artificial y aprendizaje automático (IA/ML).
Demostrar conocimiento de la sintaxis específica del lenguaje de programación.
Extraer conclusiones comerciales basadas en datos.

Consulte el Apéndice para obtener una lista de servicios y características de AWS dentro del alcance y una lista de servicios y características de AWS fuera del alcance.

Contenido del examen

Tipos de respuesta

Hay dos tipos de preguntas en el examen:

Opción múltiple: tiene una respuesta correcta y tres respuestas incorrectas (distractores)
Respuestas múltiples: tiene dos o más respuestas correctas de cinco o más opciones de respuesta

Seleccione una o más respuestas que mejor completen la declaración o respondan a la pregunta. Los distractores, o respuestas incorrectas, son opciones de respuesta que un candidato con conocimientos o habilidades incompletos podría elegir. Los distractores suelen ser respuestas plausibles que coinciden con el área de contenido.

Las preguntas sin responder se califican como incorrectas; no hay penalización por adivinar. El examen incluye 50 preguntas que afectan tu puntaje.

Contenido sin calificar

El examen incluye 15 preguntas sin calificar que no afectan tu puntaje. AWS recopila información sobre el rendimiento en estas preguntas sin calificar para evaluar estas preguntas para su uso futuro como preguntas calificadas. Estas preguntas sin calificar no se identifican en el examen.

Resultados del examen

El examen AWS Certified Data Engineer - Associate (DEA-C01) tiene una designación de aprobado o reprobado. El examen se califica en función de un estándar mínimo establecido por los profesionales de AWS que siguen las mejores prácticas y directrices de la industria de certificación.

Tus resultados del examen se informan como un puntaje escalado de 100 a 1,000. El puntaje mínimo aprobatorio es 720. Tu puntaje muestra cómo te desempeñaste en el examen en general y si lo aprobaste. Los modelos de puntuación escalada ayudan a equiparar los puntajes a través de múltiples formas de examen que podrían tener niveles de dificultad ligeramente diferentes.

Tu informe de resultados podría contener una tabla de clasificaciones de tu desempeño a nivel de sección. El examen utiliza un modelo de puntuación compensatoria, lo que significa que no necesitas obtener un puntaje aprobatorio en cada sección. Solo necesitas aprobar el examen en general.

Cada sección del examen tiene una ponderación específica, por lo que algunas secciones tienen más preguntas que otras. La tabla de clasificaciones contiene información general que destaca tus fortalezas y debilidades. Usa precaución al interpretar los comentarios a nivel de sección.

Esquema de contenido

Esta guía de examen incluye ponderaciones, dominios de contenido y declaraciones de tareas para el examen. Esta guía no proporciona una lista exhaustiva del contenido del examen. Sin embargo, se dispone de contexto adicional para cada declaración de tareas para ayudarte a prepararte para el examen.

El examen tiene los siguientes dominios de contenido y ponderaciones:

Dominio 1: Ingesta y transformación de datos (34% del contenido calificado)
Dominio 2: Gestión del almacén de datos (26% del contenido calificado)
Dominio 3: Operaciones y soporte de datos (22% del contenido calificado)
Dominio 4: Seguridad y gobernanza de datos (18% del contenido calificado)

Dominio 1: Ingesta y transformación de datos

Declaración de tarea 1.1: Realizar la ingesta de datos.

Conocimiento de:

Características de rendimiento y latencia de los servicios de AWS que ingresan datos
Patrones de ingesta de datos (por ejemplo, frecuencia e historial de datos)
Ingesta de datos en flujo continuo
Ingesta de datos por lotes (por ejemplo, ingesta programada, ingesta activada por eventos)
Reproducibilidad de las canalizaciones de ingesta de datos
Transacciones de datos con estado y sin estado

Habilidades en:

Leer datos de fuentes de flujo continuo (por ejemplo, Amazon Kinesis, Amazon Managed Streaming for Apache Kafka [Amazon MSK], Amazon DynamoDB Streams, AWS Database Migration Service [AWS DMS], AWS Glue, Amazon Redshift)
Leer datos de fuentes por lotes (por ejemplo, Amazon S3, AWS Glue, Amazon EMR, AWS DMS, Amazon Redshift, AWS Lambda, Amazon AppFlow)
Implementar opciones de configuración apropiadas para la ingesta por lotes
Consumir API de datos
Configurar programadores mediante Amazon EventBridge, Apache Airflow o programaciones basadas en el tiempo para trabajos y rastreos
Configurar desencadenadores de eventos (por ejemplo, notificaciones de eventos de Amazon S3, EventBridge)
Llamar a una función Lambda desde Amazon Kinesis
Crear listas de permitidos para direcciones IP para permitir conexiones a orígenes de datos
Implementar limitaciones y superar los límites de frecuencia (por ejemplo, DynamoDB, Amazon RDS, Kinesis)
Administrar la dispersión y la concentración para la distribución de datos en flujo continuo

Declaración de tarea 1.2: Transformar y procesar datos.

Conocimiento de:

Creación de canalizaciones ETL basadas en requisitos comerciales
Volumen, velocidad y variedad de los datos (por ejemplo, datos estructurados, datos no estructurados)
Computación en la nube y computación distribuida
Cómo usar Apache Spark para procesar datos
Ubicaciones de almacenamiento intermedio de datos

Habilidades en:

Optimizar el uso de contenedores para las necesidades de rendimiento (por ejemplo, Amazon Elastic Kubernetes Service [Amazon EKS], Amazon Elastic Container Service [Amazon ECS])
Conectarse a diferentes orígenes de datos (por ejemplo, Java Database Connectivity [JDBC], Open Database Connectivity [ODBC])
Integrar datos de múltiples fuentes
Optimizar los costos mientras se procesan los datos
Implementar servicios de transformación de datos según los requisitos (por ejemplo, Amazon EMR, AWS Glue, Lambda, Amazon Redshift)
Transformar datos entre formatos (por ejemplo, de .csv a Apache Parquet)
Solucionar problemas y depurar fallas y problemas de rendimiento comunes en las transformaciones
Crear API de datos para poner los datos a disposición de otros sistemas mediante el uso de servicios de AWS

Declaración de tarea 1.3: Orquestar canalizaciones de datos.

Conocimiento de:

Cómo integrar varios servicios de AWS para crear canalizaciones ETL
Arquitectura dirigida por eventos
Cómo configurar los servicios de AWS para las canalizaciones de datos en función de programaciones o dependencias
Flujos de trabajo sin servidor

Habilidades en:

Usar servicios de orquestación para construir flujos de trabajo para canalizaciones de extracción, transformación y carga de datos (por ejemplo, Lambda, EventBridge, Amazon Managed Workflows for Apache Airflow [Amazon MWAA], AWS Step Functions, flujos de trabajo de AWS Glue)
Construir canalizaciones de datos para el rendimiento, la disponibilidad, la escalabilidad, la resistencia y la tolerancia a fallas
Implementar y mantener flujos de trabajo sin servidor
Usar servicios de notificación para enviar alertas (por ejemplo, Amazon Simple Notification Service [Amazon SNS], Amazon Simple Queue Service [Amazon SQS])

Declaración de tarea 1.4: Aplicar conceptos de programación.

Conocimiento de:

Integración continua y entrega continua (CI/CD) (implementación, prueba y despliegue de canalizaciones de datos)
Consultas SQL (para consultas de origen de datos y transformaciones de datos)
Infraestructura como código (IaC) para implementaciones repetibles (por ejemplo, AWS Cloud Development Kit [AWS CDK], AWS CloudFormation)
Computación distribuida
Estructuras de datos y algoritmos (por ejemplo, estructuras de datos de gráficos y estructuras de datos de árboles)
Optimización de consultas SQL

Habilidades en:

Optimizar el código para reducir el tiempo de ejecución para la ingesta y transformación de datos
Configurar funciones Lambda para satisfacer las necesidades de concurrencia y rendimiento
Realizar consultas SQL para transformar datos (por ejemplo, procedimientos almacenados de Amazon Redshift)
Estructurar consultas SQL para cumplir con los requisitos de la canalización de datos
Usar comandos de Git para realizar acciones como crear, actualizar, clonar y ramificar repositorios
Usar el Modelo de aplicación sin servidor de AWS (AWS SAM) para empaquetar e implementar canalizaciones de datos sin servidor (por ejemplo, funciones Lambda, Step Functions, tablas DynamoDB)
Usar y montar volúmenes de almacenamiento desde funciones Lambda

Dominio 2: Gestión del almacén de datos

Declaración de tarea 2.1: Elegir un almacén de datos.

Conocimiento de:

Plataformas de almacenamiento y sus características
Servicios y configuraciones de almacenamiento para demandas de rendimiento específicas
Formatos de almacenamiento de datos (por ejemplo, .csv, .txt, Parquet)
Cómo alinear el almacenamiento de datos con los requisitos de migración de datos
Cómo determinar la solución de almacenamiento apropiada para patrones de acceso específicos
Cómo administrar los bloqueos para evitar el acceso a los datos (por ejemplo, Amazon Redshift, Amazon RDS)

Habilidades en:

Implementar los servicios de almacenamiento apropiados para requisitos específicos de costo y rendimiento (por ejemplo, Amazon Redshift, Amazon EMR, AWS Lake Formation, Amazon RDS, DynamoDB, Amazon Kinesis Data Streams, Amazon MSK)
Configurar los servicios de almacenamiento apropiados para patrones y requisitos de acceso específicos (por ejemplo, Amazon Redshift, Amazon EMR, Lake Formation, Amazon RDS, DynamoDB)
Aplicar servicios de almacenamiento a casos de uso apropiados (por ejemplo, Amazon S3)
Integrar herramientas de migración en sistemas de procesamiento de datos (por ejemplo, AWS Transfer Family)
Implementar métodos de migración de datos o acceso remoto (por ejemplo, consultas federadas de Amazon Redshift, vistas materializadas de Amazon Redshift, Amazon Redshift Spectrum)

Declaración de tarea 2.2: Comprender los sistemas de catalogación de datos.

Conocimiento de:

Cómo crear un catálogo de datos
Clasificación de datos según los requisitos
Componentes de metadatos y catálogos de datos

Habilidades en:

Usar catálogos de datos para consumir datos desde el origen de los datos
Construir y hacer referencia a un catálogo de datos (por ejemplo, AWS Glue Data Catalog, metastore de Apache Hive)
Descubrir esquemas y usar rastreadores de AWS Glue para poblar catálogos de datos
Sincronizar particiones con un catálogo de datos
Crear nuevas conexiones de origen o destino para catalogación (por ejemplo, AWS Glue)

Declaración de tarea 2.3: Administrar el ciclo de vida de los datos.

Conocimiento de:

Soluciones de almacenamiento apropiadas para abordar los requisitos de datos activos y fríos
Cómo optimizar el costo del almacenamiento en función del ciclo de vida de los datos
Cómo eliminar datos para cumplir con los requisitos comerciales y legales
Políticas de retención de datos y estrategias de archivo
Cómo proteger los datos con la resiliencia y disponibilidad apropiadas

Habilidades en:

Realizar operaciones de carga y descarga para mover datos entre Amazon S3 y Amazon Redshift
Administrar políticas de ciclo de vida de S3 para cambiar el nivel de almacenamiento de los datos de S3
Caducar datos cuando alcancen una edad específica mediante políticas de ciclo

Guia oficial del examen DEA-C01

Guía de examen de AWS Certified Data Engineer - Associate (DEA-C01)

Introducción

Descripción del candidato objetivo

Conocimientos generales de TI recomendados

Conocimientos de AWS recomendados

Tareas laborales que están fuera del alcance del candidato objetivo

Contenido del examen

Tipos de respuesta

Contenido sin calificar

Resultados del examen

Esquema de contenido

Dominio 1: Ingesta y transformación de datos

Declaración de tarea 1.1: Realizar la ingesta de datos.

Declaración de tarea 1.2: Transformar y procesar datos.

Declaración de tarea 1.3: Orquestar canalizaciones de datos.

Declaración de tarea 1.4: Aplicar conceptos de programación.

Dominio 2: Gestión del almacén de datos

Declaración de tarea 2.1: Elegir un almacén de datos.

Declaración de tarea 2.2: Comprender los sistemas de catalogación de datos.

Declaración de tarea 2.3: Administrar el ciclo de vida de los datos.