Guía de examen de AWS Certified Machine Learning - Specialty (MLS-C01)

Introducción

El examen AWS Certified Machine Learning - Specialty (MLS-C01) está dirigido a individuos que desempeñan un papel de desarrollo de inteligencia artificial y aprendizaje automático (AI/ML) o de ciencia de datos. El examen valida la capacidad de un candidato para diseñar, construir, implementar, optimizar, entrenar, ajustar y mantener soluciones de ML para problemas empresariales dados utilizando la nube de AWS.

El examen también valida la capacidad de un candidato para completar las siguientes tareas:

Seleccionar y justificar el enfoque de ML apropiado para un problema empresarial dado.
Identificar los servicios AWS apropiados para implementar soluciones de ML.
Diseñar e implementar soluciones de ML escalables, optimizadas en costos, confiables y seguras.

Descripción del candidato objetivo

El candidato objetivo debe tener 2 o más años de experiencia desarrollando, arquitecturando y ejecutando cargas de trabajo de ML o aprendizaje profundo en la nube de AWS.

Conocimientos de AWS recomendados

El candidato objetivo debe tener los siguientes conocimientos de AWS:

La capacidad de expresar la intuición detrás de los algoritmos básicos de ML
Experiencia en la realización de optimización básica de hiperparámetros
Experiencia con marcos de ML y aprendizaje profundo
La capacidad de seguir las mejores prácticas de entrenamiento de modelos
La capacidad de seguir las mejores prácticas de implementación
La capacidad de seguir las mejores prácticas operativas

Conocimientos fuera del alcance para el candidato objetivo

La siguiente lista contiene conocimientos que no se espera que tenga el candidato objetivo. Esta lista no es exhaustiva. El conocimiento en las siguientes áreas está fuera del alcance del examen:

Desarrollo de algoritmos extensos o complejos
Optimización de hiperparámetros avanzada
Pruebas matemáticas y computaciones complejas
Redes avanzadas y diseño de redes
Conceptos avanzados de bases de datos, seguridad y DevOps
Tareas relacionadas con DevOps para Amazon EMR

Consulte el Apéndice para obtener una lista de tecnologías y conceptos que podrían aparecer en el examen, una lista de servicios y funciones de AWS dentro del alcance y una lista de servicios y funciones de AWS fuera del alcance.

Contenido del examen

Tipos de respuestas

Hay dos tipos de preguntas en el examen:

Opción múltiple: Tiene una respuesta correcta y tres respuestas incorrectas (distractores)
Respuesta múltiple: Tiene dos o más respuestas correctas de entre cinco o más opciones de respuesta

Seleccione una o más respuestas que completen mejor la declaración o respondan la pregunta. Los distractores, o respuestas incorrectas, son opciones de respuesta que un candidato con conocimientos o habilidades incompletos podría elegir. Los distractores generalmente son respuestas plausibles que coinciden con el área de contenido.

Las preguntas sin respuesta se califican como incorrectas; no hay penalización por adivinar. El examen incluye 50 preguntas que afectan su calificación.

Contenido sin calificar

El examen incluye 15 preguntas sin calificar que no afectan su calificación. AWS recopila información sobre el desempeño en estas preguntas sin calificar para evaluar estas preguntas para su uso futuro como preguntas calificadas. Estas preguntas sin calificar no se identifican en el examen.

Resultados del examen

El examen AWS Certified Machine Learning - Specialty (MLS-C01) tiene una designación de aprobado o reprobado. El examen se califica en función de un estándar mínimo establecido por los profesionales de AWS que siguen las mejores prácticas y pautas de la industria de certificación.

Sus resultados para el examen se informan como una puntuación escalada de 100 a 1,000. La puntuación mínima aprobatoria es 750. Su puntuación muestra cómo se desempeñó en el examen en general y si aprobó. Los modelos de puntuación escalados ayudan a equiparar las puntuaciones en varios formularios de examen que podrían tener niveles de dificultad ligeramente diferentes.

Su informe de calificaciones podría contener una tabla de clasificaciones de su desempeño a nivel de sección. El examen utiliza un modelo de puntuación compensatorio, lo que significa que no necesita lograr una puntuación aprobatoria en cada sección. Solo necesita aprobar el examen general.

Cada sección del examen tiene una ponderación específica, por lo que algunas secciones tienen más preguntas que otras. La tabla de clasificaciones contiene información general que destaca sus fortalezas y debilidades. Tenga cuidado al interpretar los comentarios a nivel de sección.

Esquema de contenido

Esta guía de examen incluye ponderaciones, dominios de contenido y declaraciones de tareas para el examen. Esta guía no proporciona una lista exhaustiva del contenido del examen. Sin embargo, se dispone de contexto adicional para cada declaración de tareas para ayudarlo a prepararse para el examen.

El examen tiene los siguientes dominios de contenido y ponderaciones:

Dominio 1: Ingeniería de datos (20% del contenido calificado)
Dominio 2: Análisis exploratorio de datos (24% del contenido calificado)
Dominio 3: Modelado (36% del contenido calificado)
Dominio 4: Implementación y operaciones de aprendizaje automático (20% del contenido calificado)

Dominio 1: Ingeniería de datos

Declaración de tarea 1.1: Crear repositorios de datos para ML.

Identificar fuentes de datos (por ejemplo, contenido y ubicación, fuentes primarias como datos de usuario).
Determinar medios de almacenamiento (por ejemplo, bases de datos, Amazon S3, Amazon Elastic File System [Amazon EFS], Amazon Elastic Block Store [Amazon EBS]).

Declaración de tarea 1.2: Identificar e implementar una solución de ingesta de datos.

Identificar los estilos y tipos de trabajos de datos (por ejemplo, carga por lotes, transmisión).
Orquestar tuberías de ingesta de datos (cargas de trabajo de ML basadas en lotes y cargas de trabajo de ML basadas en transmisión).
- Amazon Kinesis
- Amazon Data Firehose
- Amazon EMR
- AWS Glue
- Servicio administrado de Amazon para Apache Flink
Programar trabajos.

Declaración de tarea 1.3: Identificar e implementar una solución de transformación de datos.

Transformar datos en tránsito (ETL, AWS Glue, Amazon EMR, AWS Batch).
Manejar datos específicos de ML usando MapReduce (por ejemplo, Apache Hadoop, Apache Spark, Apache Hive).

Dominio 2: Análisis exploratorio de datos

Declaración de tarea 2.1: Sanear y preparar datos para el modelado.

Identificar y manejar datos faltantes, datos dañados y palabras irrelevantes.
Dar formato, normalizar, aumentar y escalar datos.
Determinar si hay suficientes datos etiquetados.
- Identificar estrategias de mitigación.
- Utilizar herramientas de etiquetado de datos (por ejemplo, Amazon Mechanical Turk).

Declaración de tarea 2.2: Realizar ingeniería de características.

Identificar y extraer características de conjuntos de datos, incluidos de fuentes de datos como texto, voz, imágenes y conjuntos de datos públicos.
Analizar y evaluar conceptos de ingeniería de características (por ejemplo, agrupación, tokenización, valores atípicos, características sintéticas, codificación one-hot, reducción de la dimensionalidad de los datos).

Declaración de tarea 2.3: Analizar y visualizar datos para ML.

Crear gráficos (por ejemplo, gráficos de dispersión, series temporales, histogramas, diagramas de caja).
Interpretar estadísticas descriptivas (por ejemplo, correlación, estadísticas resumen, valor p).
Realizar análisis de clústeres (por ejemplo, jerárquico, de diagnóstico, gráfico de codo, tamaño de clúster).

Dominio 3: Modelado

Declaración de tarea 3.1: Plantear problemas empresariales como problemas de ML.

Determinar cuándo usar y cuándo no usar ML.
Conocer la diferencia entre aprendizaje supervisado y no supervisado.
Seleccionar entre clasificación, regresión, pronóstico, agrupación, recomendación y modelos de fundación.

Declaración de tarea 3.2: Seleccionar el/los modelo(s) apropiado(s) para un problema de ML dado.

XGBoost, regresión logística, k-means, regresión lineal, árboles de decisión, bosques aleatorios, RNN, CNN, ensamble, transferencia de aprendizaje y modelos de lenguaje grandes (LLM)
Expresar la intuición detrás de los modelos.

Declaración de tarea 3.3: Entrenar modelos de ML.

Dividir datos entre entrenamiento y validación (por ejemplo, validación cruzada).
Entender las técnicas de optimización para el entrenamiento de ML (por ejemplo, descenso de gradiente, funciones de pérdida, convergencia).
Elegir los recursos de cálculo apropiados (por ejemplo, GPU o CPU, distribuido o no distribuido).
- Elegir las plataformas de cálculo apropiadas (Spark o no Spark).
Actualizar y volver a entrenar modelos.
- Lote o en tiempo real/en línea

Declaración de tarea 3.4: Realizar optimización de hiperparámetros.

Realizar regularización.
- Dropout
- L1/L2
Realizar validación cruzada.
Inicializar modelos.
Entender la arquitectura de redes neuronales (capas y nodos), tasa de aprendizaje y funciones de activación.
Entender modelos basados en árboles (número de árboles, número de niveles).
Entender modelos lineales (tasa de aprendizaje).

Declaración de tarea 3.5: Evaluar modelos de ML.

Evitar el sobreajuste o el subajuste.
- Detectar y manejar el sesgo y la varianza.
Evaluar métricas (por ejemplo, área bajo la curva [AUC]-características operativas del receptor [ROC], precisión, exhaustividad, error cuadrático medio [RMSE], puntuación F1).
Interpretar matrices de confusión.
Realizar evaluación de modelos fuera de línea y en línea (pruebas A/B).
Comparar modelos utilizando métricas (por ejemplo, tiempo para entrenar un modelo, calidad del modelo, costos de ingeniería).
Realizar validación cruzada.

Dominio 4: Implementación y operaciones de aprendizaje automático

Declaración de tarea 4.1: Construir soluciones de ML para el rendimiento, la disponibilidad, la escalabilidad, la resiliencia y la tolerancia a fallas.

Registrar y monitorear entornos de AWS.
- AWS CloudTrail y Amazon CloudWatch
- Construir soluciones de monitoreo de errores.
Implementar en múltiples regiones de AWS y múltiples zonas de disponibilidad.
Crear AMI e imágenes maestras.
Crear contenedores Docker.
Implementar grupos de Auto Scaling.
Dimensionar correctamente los recursos (por ejemplo, instancias, IOPS aprovisionadas, volúmenes).
Realizar equilibrio de carga.
Seguir las mejores prácticas de AWS.

Declaración de tarea 4.2: Recomendar e implementar los servicios y funciones de ML apropiados para un problema dado.

ML en AWS (servicios de aplicaciones), por ejemplo:
- Amazon Polly
- Amazon Lex
- Amazon Transcribe
- Amazon Q
Entender las cuotas de servicio de AWS.
Determinar cuándo construir modelos personalizados y cuándo utilizar los algoritmos incorporados de Amazon SageMaker.
Entender la infraestructura de AWS (por ejemplo, tipos de instancia) y consideraciones de costos.
- Utilizar Spot Instances para entrenar modelos de aprendizaje profundo usando AWS Batch.

Declaración de tarea 4.3: Aplicar prácticas básicas de seguridad de AWS a soluciones de ML.

AWS Identity and Access Management (IAM)
Políticas de bucket de S3
Grupos de seguridad
VPC
Cifrado y anonimización

Declaración de tarea 4.4: Implementar y operacionalizar soluciones de ML.

Exponer puntos finales e interactuar con ellos.
Entender los modelos de ML.
Realizar pruebas A/B.
Volver a entrenar tuberías.
Depurar y solucionar problemas de modelos de ML.
- Detectar y mitigar caídas en el rendimiento.
- Monitorear el rendimiento del modelo.

Apéndice

Tecnologías y conceptos que podrían aparecer en el examen

La siguiente lista contiene tecnologías y conceptos que podrían aparecer en el examen. Esta lista no es exhaustiva y está sujeta a cambios. El orden y la colocación de los elementos en esta lista no es una indicación de su peso o importancia relativa en el examen:

Ingesta y recopilación
Procesamiento y ETL
Análisis y visualización de datos
Entrenamiento de modelos
Implementación e inferencia de modelos
Operacionalizar ML
Servicios de aplicaciones de ML de AWS
Lenguaje relevante para ML (por ejemplo, Python, Java, Scala, R, SQL)
Cuadernos y entornos de desarrollo integrados (IDE)

Servicios y funciones de AWS dentro del alcance

La siguiente lista contiene servicios y funciones de AWS que están dentro del alcance del examen. Esta lista no es exhaustiva y está sujeta a cambios. Las ofertas de AWS aparecen en categorías que se alinean con las funciones principales de las ofertas:

Análisis:

Amazon Athena
Amazon Data Firehose
Amazon EMR
AWS Glue
Amazon Kinesis
Amazon Kinesis Data Streams
AWS Lake Formation
Servicio administrado de Amazon para Apache Flink
Amazon OpenSearch Service
Amazon QuickSight

Cálculo:

AWS Batch
Amazon EC2
AWS Lambda

Contenedores:

Amazon Elastic Container Registry (Amazon ECR)
Amazon Elastic Container Service (Amazon ECS)
Amazon Elastic Kubernetes Service (Amazon EKS)
AWS Fargate

Base de datos:

Amazon Redshift

Internet de las cosas:

AWS IoT Greengrass

Aprendizaje automático:

Amazon Bedrock
Amazon Comprehend
AWS Deep Learning AMIs (DLAMI)
Amazon Forecast
Amazon Fraud Detector
Amazon Lex
Amazon Kendra
Amazon Mechanical Turk
Amazon Polly
Amazon Q
Amazon Rekognition
Amazon SageMaker
Amazon Textract
Amazon Transcribe
Amazon Translate

Gestión y gobernanza:

AWS CloudTrail
Amazon CloudWatch

Redes y entrega de contenido:

Amazon VPC

Seguridad, identidad y cumplimiento:

AWS Identity and Access Management (IAM)

Almacenamiento:

Amazon Elastic Block Store (Amazon EBS)
Amazon Elastic File System (Amazon EFS)
Amazon FSx
Amazon S3

Servicios y funciones de AWS fuera del alcance

La siguiente lista contiene servicios y funciones de AWS que están fuera del alcance del examen. Esta lista no es exhaustiva y está sujeta a cambios. Se excluyen de esta lista las ofertas de AWS que no están relacionadas con los roles laborales objetivo del examen:

Análisis:

AWS Data Pipeline

Aprendizaje automático:

AWS DeepRacer
Amazon Machine Learning (Amazon ML)

Guia oficial del examen MLS-C01

Guía de examen de AWS Certified Machine Learning - Specialty (MLS-C01)

Introducción

Descripción del candidato objetivo

Conocimientos de AWS recomendados

Conocimientos fuera del alcance para el candidato objetivo

Contenido del examen

Tipos de respuestas

Contenido sin calificar

Resultados del examen

Esquema de contenido

Dominio 1: Ingeniería de datos

Declaración de tarea 1.1: Crear repositorios de datos para ML.

Declaración de tarea 1.2: Identificar e implementar una solución de ingesta de datos.

Declaración de tarea 1.3: Identificar e implementar una solución de transformación de datos.

Dominio 2: Análisis exploratorio de datos

Declaración de tarea 2.1: Sanear y preparar datos para el modelado.

Declaración de tarea 2.2: Realizar ingeniería de características.

Declaración de tarea 2.3: Analizar y visualizar datos para ML.

Dominio 3: Modelado

Declaración de tarea 3.1: Plantear problemas empresariales como problemas de ML.

Declaración de tarea 3.2: Seleccionar el/los modelo(s) apropiado(s) para un problema de ML dado.

Declaración de tarea 3.3: Entrenar modelos de ML.

Declaración de tarea 3.4: Realizar optimización de hiperparámetros.

Declaración de tarea 3.5: Evaluar modelos de ML.

Dominio 4: Implementación y operaciones de aprendizaje automático

Declaración de tarea 4.1: Construir soluciones de ML para el rendimiento, la disponibilidad, la escalabilidad, la resiliencia y la tolerancia a fallas.

Declaración de tarea 4.2: Recomendar e implementar los servicios y funciones de ML apropiados para un problema dado.

Declaración de tarea 4.3: Aplicar prácticas básicas de seguridad de AWS a soluciones de ML.

Declaración de tarea 4.4: Implementar y operacionalizar soluciones de ML.

Apéndice

Tecnologías y conceptos que podrían aparecer en el examen

Servicios y funciones de AWS dentro del alcance

Análisis:

Cálculo:

Contenedores:

Base de datos:

Internet de las cosas:

Aprendizaje automático:

Gestión y gobernanza:

Redes y entrega de contenido:

Seguridad, identidad y cumplimiento:

Almacenamiento:

Servicios y funciones de AWS fuera del alcance

Análisis:

Aprendizaje automático: