CC

Guia oficial del examen DEA-C01

Formato del examen, dominios y consejos de preparacion

Guía de examen de AWS Certified Data Engineer - Associate (DEA-C01)

Versión 1.0 DEA-C01

Introducción

El examen AWS Certified Data Engineer - Associate (DEA-C01) valida la capacidad de un candidato para implementar canalizaciones de datos y monitorear, solucionar problemas y optimizar los problemas de costo y rendimiento de acuerdo con las mejores prácticas.

El examen también valida la capacidad del candidato para completar las siguientes tareas:

  • Ingerir y transformar datos, y orquestar canalizaciones de datos mientras se aplican conceptos de programación.
  • Elegir un almacén de datos óptimo, diseñar modelos de datos, catalogar esquemas de datos y administrar ciclos de vida de datos.
  • Operacionalizar, mantener y monitorear canalizaciones de datos. Analizar datos y asegurar la calidad de los datos.
  • Implementar la autenticación, autorización, cifrado de datos, privacidad y gobernanza apropiados. Habilitar el registro.

Descripción del candidato objetivo

El candidato objetivo debe tener el equivalente a 2-3 años de experiencia en ingeniería de datos. El candidato objetivo debe comprender los efectos del volumen, la variedad y la velocidad en la ingesta, transformación, modelado, seguridad, gobernanza, privacidad, diseño de esquemas y diseño óptimo de almacén de datos de los datos. Además, el candidato objetivo debe tener al menos 1-2 años de experiencia práctica con los servicios de AWS.

Conocimientos generales de TI recomendados

El candidato objetivo debe tener los siguientes conocimientos generales de TI:

  • Configuración y mantenimiento de canalizaciones de extracción, transformación y carga (ETL) desde la ingesta hasta el destino
  • Aplicación de conceptos de programación de alto nivel pero independientes del lenguaje, según lo requiera la canalización
  • Cómo usar comandos de Git para el control de origen
  • Cómo usar lagos de datos para almacenar datos
  • Conceptos generales de redes, almacenamiento y cómputo

Conocimientos de AWS recomendados

El candidato objetivo debe tener los siguientes conocimientos de AWS:

  • Cómo usar los servicios de AWS para lograr las tareas enumeradas en la sección de Introducción de esta guía de examen
  • Una comprensión de los servicios de AWS para el cifrado, la gobernanza, la protección y el registro de todos los datos que forman parte de las canalizaciones de datos
  • La capacidad de comparar los servicios de AWS para comprender las diferencias de costo, rendimiento y funcionalidad entre los servicios
  • Cómo estructurar consultas SQL y cómo ejecutar consultas SQL en los servicios de AWS
  • Una comprensión de cómo analizar datos, verificar la calidad de los datos y asegurar la coherencia de los datos mediante el uso de servicios de AWS

Tareas laborales que están fuera del alcance del candidato objetivo

La siguiente lista contiene tareas laborales que no se espera que el candidato objetivo pueda realizar. Esta lista no es exhaustiva. Estas tareas están fuera del alcance del examen:

  • Realizar tareas de inteligencia artificial y aprendizaje automático (IA/ML).
  • Demostrar conocimiento de la sintaxis específica del lenguaje de programación.
  • Extraer conclusiones comerciales basadas en datos.

Consulte el Apéndice para obtener una lista de servicios y características de AWS dentro del alcance y una lista de servicios y características de AWS fuera del alcance.

Contenido del examen

Tipos de respuesta

Hay dos tipos de preguntas en el examen:

  • Opción múltiple: tiene una respuesta correcta y tres respuestas incorrectas (distractores)
  • Respuestas múltiples: tiene dos o más respuestas correctas de cinco o más opciones de respuesta

Seleccione una o más respuestas que mejor completen la declaración o respondan a la pregunta. Los distractores, o respuestas incorrectas, son opciones de respuesta que un candidato con conocimientos o habilidades incompletos podría elegir. Los distractores suelen ser respuestas plausibles que coinciden con el área de contenido.

Las preguntas sin responder se califican como incorrectas; no hay penalización por adivinar. El examen incluye 50 preguntas que afectan tu puntaje.

Contenido sin calificar

El examen incluye 15 preguntas sin calificar que no afectan tu puntaje. AWS recopila información sobre el rendimiento en estas preguntas sin calificar para evaluar estas preguntas para su uso futuro como preguntas calificadas. Estas preguntas sin calificar no se identifican en el examen.

Resultados del examen

El examen AWS Certified Data Engineer - Associate (DEA-C01) tiene una designación de aprobado o reprobado. El examen se califica en función de un estándar mínimo establecido por los profesionales de AWS que siguen las mejores prácticas y directrices de la industria de certificación.

Tus resultados del examen se informan como un puntaje escalado de 100 a 1,000. El puntaje mínimo aprobatorio es 720. Tu puntaje muestra cómo te desempeñaste en el examen en general y si lo aprobaste. Los modelos de puntuación escalada ayudan a equiparar los puntajes a través de múltiples formas de examen que podrían tener niveles de dificultad ligeramente diferentes.

Tu informe de resultados podría contener una tabla de clasificaciones de tu desempeño a nivel de sección. El examen utiliza un modelo de puntuación compensatoria, lo que significa que no necesitas obtener un puntaje aprobatorio en cada sección. Solo necesitas aprobar el examen en general.

Cada sección del examen tiene una ponderación específica, por lo que algunas secciones tienen más preguntas que otras. La tabla de clasificaciones contiene información general que destaca tus fortalezas y debilidades. Usa precaución al interpretar los comentarios a nivel de sección.

Esquema de contenido

Esta guía de examen incluye ponderaciones, dominios de contenido y declaraciones de tareas para el examen. Esta guía no proporciona una lista exhaustiva del contenido del examen. Sin embargo, se dispone de contexto adicional para cada declaración de tareas para ayudarte a prepararte para el examen.

El examen tiene los siguientes dominios de contenido y ponderaciones:

  • Dominio 1: Ingesta y transformación de datos (34% del contenido calificado)
  • Dominio 2: Gestión del almacén de datos (26% del contenido calificado)
  • Dominio 3: Operaciones y soporte de datos (22% del contenido calificado)
  • Dominio 4: Seguridad y gobernanza de datos (18% del contenido calificado)

Dominio 1: Ingesta y transformación de datos

Declaración de tarea 1.1: Realizar la ingesta de datos.

Conocimiento de:

  • Características de rendimiento y latencia de los servicios de AWS que ingresan datos
  • Patrones de ingesta de datos (por ejemplo, frecuencia e historial de datos)
  • Ingesta de datos en flujo continuo
  • Ingesta de datos por lotes (por ejemplo, ingesta programada, ingesta activada por eventos)
  • Reproducibilidad de las canalizaciones de ingesta de datos
  • Transacciones de datos con estado y sin estado

Habilidades en:

  • Leer datos de fuentes de flujo continuo (por ejemplo, Amazon Kinesis, Amazon Managed Streaming for Apache Kafka [Amazon MSK], Amazon DynamoDB Streams, AWS Database Migration Service [AWS DMS], AWS Glue, Amazon Redshift)
  • Leer datos de fuentes por lotes (por ejemplo, Amazon S3, AWS Glue, Amazon EMR, AWS DMS, Amazon Redshift, AWS Lambda, Amazon AppFlow)
  • Implementar opciones de configuración apropiadas para la ingesta por lotes
  • Consumir API de datos
  • Configurar programadores mediante Amazon EventBridge, Apache Airflow o programaciones basadas en el tiempo para trabajos y rastreos
  • Configurar desencadenadores de eventos (por ejemplo, notificaciones de eventos de Amazon S3, EventBridge)
  • Llamar a una función Lambda desde Amazon Kinesis
  • Crear listas de permitidos para direcciones IP para permitir conexiones a orígenes de datos
  • Implementar limitaciones y superar los límites de frecuencia (por ejemplo, DynamoDB, Amazon RDS, Kinesis)
  • Administrar la dispersión y la concentración para la distribución de datos en flujo continuo

Declaración de tarea 1.2: Transformar y procesar datos.

Conocimiento de:

  • Creación de canalizaciones ETL basadas en requisitos comerciales
  • Volumen, velocidad y variedad de los datos (por ejemplo, datos estructurados, datos no estructurados)
  • Computación en la nube y computación distribuida
  • Cómo usar Apache Spark para procesar datos
  • Ubicaciones de almacenamiento intermedio de datos

Habilidades en:

  • Optimizar el uso de contenedores para las necesidades de rendimiento (por ejemplo, Amazon Elastic Kubernetes Service [Amazon EKS], Amazon Elastic Container Service [Amazon ECS])
  • Conectarse a diferentes orígenes de datos (por ejemplo, Java Database Connectivity [JDBC], Open Database Connectivity [ODBC])
  • Integrar datos de múltiples fuentes
  • Optimizar los costos mientras se procesan los datos
  • Implementar servicios de transformación de datos según los requisitos (por ejemplo, Amazon EMR, AWS Glue, Lambda, Amazon Redshift)
  • Transformar datos entre formatos (por ejemplo, de .csv a Apache Parquet)
  • Solucionar problemas y depurar fallas y problemas de rendimiento comunes en las transformaciones
  • Crear API de datos para poner los datos a disposición de otros sistemas mediante el uso de servicios de AWS

Declaración de tarea 1.3: Orquestar canalizaciones de datos.

Conocimiento de:

  • Cómo integrar varios servicios de AWS para crear canalizaciones ETL
  • Arquitectura dirigida por eventos
  • Cómo configurar los servicios de AWS para las canalizaciones de datos en función de programaciones o dependencias
  • Flujos de trabajo sin servidor

Habilidades en:

  • Usar servicios de orquestación para construir flujos de trabajo para canalizaciones de extracción, transformación y carga de datos (por ejemplo, Lambda, EventBridge, Amazon Managed Workflows for Apache Airflow [Amazon MWAA], AWS Step Functions, flujos de trabajo de AWS Glue)
  • Construir canalizaciones de datos para el rendimiento, la disponibilidad, la escalabilidad, la resistencia y la tolerancia a fallas
  • Implementar y mantener flujos de trabajo sin servidor
  • Usar servicios de notificación para enviar alertas (por ejemplo, Amazon Simple Notification Service [Amazon SNS], Amazon Simple Queue Service [Amazon SQS])

Declaración de tarea 1.4: Aplicar conceptos de programación.

Conocimiento de:

  • Integración continua y entrega continua (CI/CD) (implementación, prueba y despliegue de canalizaciones de datos)
  • Consultas SQL (para consultas de origen de datos y transformaciones de datos)
  • Infraestructura como código (IaC) para implementaciones repetibles (por ejemplo, AWS Cloud Development Kit [AWS CDK], AWS CloudFormation)
  • Computación distribuida
  • Estructuras de datos y algoritmos (por ejemplo, estructuras de datos de gráficos y estructuras de datos de árboles)
  • Optimización de consultas SQL

Habilidades en:

  • Optimizar el código para reducir el tiempo de ejecución para la ingesta y transformación de datos
  • Configurar funciones Lambda para satisfacer las necesidades de concurrencia y rendimiento
  • Realizar consultas SQL para transformar datos (por ejemplo, procedimientos almacenados de Amazon Redshift)
  • Estructurar consultas SQL para cumplir con los requisitos de la canalización de datos
  • Usar comandos de Git para realizar acciones como crear, actualizar, clonar y ramificar repositorios
  • Usar el Modelo de aplicación sin servidor de AWS (AWS SAM) para empaquetar e implementar canalizaciones de datos sin servidor (por ejemplo, funciones Lambda, Step Functions, tablas DynamoDB)
  • Usar y montar volúmenes de almacenamiento desde funciones Lambda

Dominio 2: Gestión del almacén de datos

Declaración de tarea 2.1: Elegir un almacén de datos.

Conocimiento de:

  • Plataformas de almacenamiento y sus características
  • Servicios y configuraciones de almacenamiento para demandas de rendimiento específicas
  • Formatos de almacenamiento de datos (por ejemplo, .csv, .txt, Parquet)
  • Cómo alinear el almacenamiento de datos con los requisitos de migración de datos
  • Cómo determinar la solución de almacenamiento apropiada para patrones de acceso específicos
  • Cómo administrar los bloqueos para evitar el acceso a los datos (por ejemplo, Amazon Redshift, Amazon RDS)

Habilidades en:

  • Implementar los servicios de almacenamiento apropiados para requisitos específicos de costo y rendimiento (por ejemplo, Amazon Redshift, Amazon EMR, AWS Lake Formation, Amazon RDS, DynamoDB, Amazon Kinesis Data Streams, Amazon MSK)
  • Configurar los servicios de almacenamiento apropiados para patrones y requisitos de acceso específicos (por ejemplo, Amazon Redshift, Amazon EMR, Lake Formation, Amazon RDS, DynamoDB)
  • Aplicar servicios de almacenamiento a casos de uso apropiados (por ejemplo, Amazon S3)
  • Integrar herramientas de migración en sistemas de procesamiento de datos (por ejemplo, AWS Transfer Family)
  • Implementar métodos de migración de datos o acceso remoto (por ejemplo, consultas federadas de Amazon Redshift, vistas materializadas de Amazon Redshift, Amazon Redshift Spectrum)

Declaración de tarea 2.2: Comprender los sistemas de catalogación de datos.

Conocimiento de:

  • Cómo crear un catálogo de datos
  • Clasificación de datos según los requisitos
  • Componentes de metadatos y catálogos de datos

Habilidades en:

  • Usar catálogos de datos para consumir datos desde el origen de los datos
  • Construir y hacer referencia a un catálogo de datos (por ejemplo, AWS Glue Data Catalog, metastore de Apache Hive)
  • Descubrir esquemas y usar rastreadores de AWS Glue para poblar catálogos de datos
  • Sincronizar particiones con un catálogo de datos
  • Crear nuevas conexiones de origen o destino para catalogación (por ejemplo, AWS Glue)

Declaración de tarea 2.3: Administrar el ciclo de vida de los datos.

Conocimiento de:

  • Soluciones de almacenamiento apropiadas para abordar los requisitos de datos activos y fríos
  • Cómo optimizar el costo del almacenamiento en función del ciclo de vida de los datos
  • Cómo eliminar datos para cumplir con los requisitos comerciales y legales
  • Políticas de retención de datos y estrategias de archivo
  • Cómo proteger los datos con la resiliencia y disponibilidad apropiadas

Habilidades en:

  • Realizar operaciones de carga y descarga para mover datos entre Amazon S3 y Amazon Redshift
  • Administrar políticas de ciclo de vida de S3 para cambiar el nivel de almacenamiento de los datos de S3
  • Caducar datos cuando alcancen una edad específica mediante políticas de ciclo