Guia do Exame da AWS Certified Machine Learning - Specialty (MLS-C01)

Introdução

O exame da AWS Certified Machine Learning - Specialty (MLS-C01) destina-se a indivíduos que desempenham um papel de desenvolvimento de inteligência artificial e aprendizado de máquina (IA/ML) ou de ciência de dados. O exame valida a capacidade do candidato de projetar, construir, implantar, otimizar, treinar, sintonizar e manter soluções de ML para problemas de negócios usando a AWS Cloud.

O exame também valida a capacidade do candidato de concluir as seguintes tarefas:

Selecionar e justificar a abordagem de ML apropriada para um determinado problema de negócios.
Identificar os serviços AWS apropriados para implementar soluções de ML.
Projetar e implementar soluções de ML escaláveis, otimizadas em custos, confiáveis e seguras.

Descrição do candidato alvo

O candidato alvo deve ter 2 ou mais anos de experiência desenvolvendo, arquitetando e executando cargas de trabalho de ML ou aprendizado profundo na AWS Cloud.

Conhecimento recomendado da AWS

O candidato alvo deve ter o seguinte conhecimento da AWS:

A capacidade de expressar a intuição por trás de algoritmos de ML básicos
Experiência em realizar otimização básica de hiperparâmetros
Experiência com estruturas de ML e aprendizado profundo
A capacidade de seguir as melhores práticas de treinamento de modelos
A capacidade de seguir as melhores práticas de implantação
A capacidade de seguir as melhores práticas operacionais

Conhecimento fora do escopo para o candidato alvo

A lista a seguir contém conhecimentos que não se espera que o candidato alvo tenha. Esta lista não é exaustiva. O conhecimento nas seguintes áreas está fora do escopo do exame:

Desenvolvimento de algoritmos extensivos ou complexos
Otimização de hiperparâmetros extensiva
Provas e cálculos matemáticos complexos
Rede avançada e design de rede
Conceitos avançados de banco de dados, segurança e DevOps
Tarefas relacionadas a DevOps para o Amazon EMR

Consulte o Apêndice para obter uma lista de tecnologias e conceitos que podem aparecer no exame, uma lista de serviços e recursos da AWS dentro do escopo e uma lista de serviços e recursos da AWS fora do escopo.

Conteúdo do exame

Tipos de respostas

Existem dois tipos de questões no exame:

Múltipla escolha: Tem uma resposta correta e três respostas incorretas (distratores)
Múltipla resposta: Tem duas ou mais respostas corretas de cinco ou mais opções de resposta

Selecione uma ou mais respostas que melhor complementem a afirmação ou respondam à pergunta. Os distratores, ou respostas incorretas, são opções de resposta que um candidato com conhecimento ou habilidade incompletos podem escolher. Os distratores geralmente são respostas plausíveis que correspondem à área de conteúdo.

As questões não respondidas são pontuadas como incorretas; não há penalidade por adivinhar. O exame inclui 50 questões que afetam sua pontuação.

Conteúdo não pontuado

O exame inclui 15 questões não pontuadas que não afetam sua pontuação. A AWS coleta informações sobre o desempenho nessas questões não pontuadas para avaliar essas questões para uso futuro como questões pontuadas. Essas questões não pontuadas não são identificadas no exame.

Resultados do exame

O exame da AWS Certified Machine Learning - Specialty (MLS-C01) tem uma designação de aprovação ou reprovação. O exame é pontuado em relação a um padrão mínimo estabelecido por profissionais da AWS que seguem as melhores práticas e diretrizes da indústria de certificação.

Seus resultados para o exame são informados como uma pontuação de 100 a 1.000. A pontuação mínima de aprovação é 750. Sua pontuação mostra como você se saiu no exame como um todo e se você foi aprovado. Os modelos de pontuação escalada ajudam a equiparar as pontuações entre várias formas de exame que podem ter níveis de dificuldade ligeiramente diferentes.

Seu relatório de pontuação pode conter uma tabela de classificações do seu desempenho em cada nível de seção. O exame usa um modelo de pontuação compensatória, o que significa que você não precisa atingir uma pontuação de aprovação em cada seção. Você precisa apenas passar no exame geral.

Cada seção do exame tem uma ponderação específica, portanto, algumas seções têm mais questões do que outras. A tabela de classificações contém informações gerais que destacam seus pontos fortes e fracos. Tenha cuidado ao interpretar o feedback no nível da seção.

Estrutura de conteúdo

Este guia de exame inclui ponderações, domínios de conteúdo e declarações de tarefa para o exame. Este guia não fornece uma lista abrangente do conteúdo do exame. No entanto, um contexto adicional para cada declaração de tarefa está disponível para ajudá-lo a se preparar para o exame.

O exame tem os seguintes domínios de conteúdo e ponderações:

Domínio 1: Engenharia de Dados (20% do conteúdo pontuado)
Domínio 2: Análise Exploratória de Dados (24% do conteúdo pontuado)
Domínio 3: Modelagem (36% do conteúdo pontuado)
Domínio 4: Implementação e Operações de Aprendizado de Máquina (20% do conteúdo pontuado)

Domínio 1: Engenharia de Dados

Declaração de Tarefa 1.1: Criar repositórios de dados para ML.

Identificar fontes de dados (por exemplo, conteúdo e localização, fontes primárias como dados do usuário).
Determinar meios de armazenamento (por exemplo, bancos de dados, Amazon S3, Amazon Elastic File System [Amazon EFS], Amazon Elastic Block Store [Amazon EBS]).

Declaração de Tarefa 1.2: Identificar e implementar uma solução de ingestão de dados.

Identificar estilos de trabalho de dados e tipos de trabalho (por exemplo, carga em lote, streaming).
Orquestrar pipelines de ingestão de dados (cargas de trabalho de ML baseadas em lotes e cargas de trabalho de ML baseadas em streaming).
- Amazon Kinesis
- Amazon Data Firehose
- Amazon EMR
- AWS Glue
- Amazon Managed Service for Apache Flink
Agendar trabalhos.

Declaração de Tarefa 1.3: Identificar e implementar uma solução de transformação de dados.

Transformar dados em trânsito (ETL, AWS Glue, Amazon EMR, AWS Batch).
Lidar com dados específicos de ML usando MapReduce (por exemplo, Apache Hadoop, Apache Spark, Apache Hive).

Domínio 2: Análise Exploratória de Dados

Declaração de Tarefa 2.1: Sanear e preparar dados para modelagem.

Identificar e lidar com dados ausentes, dados corrompidos e palavras irrelevantes.
Formatar, normalizar, aumentar e dimensionar dados.
Determinar se há dados rotulados suficientes.
- Identificar estratégias de mitigação.
- Usar ferramentas de rotulagem de dados (por exemplo, Amazon Mechanical Turk).

Declaração de Tarefa 2.2: Realizar engenharia de recursos.

Identificar e extrair recursos de conjuntos de dados, incluindo de fontes de dados como texto, fala, imagens e conjuntos de dados públicos.
Analisar e avaliar conceitos de engenharia de recursos (por exemplo, divisão em intervalos, tokenização, outliers, recursos sintéticos, codificação one-hot, redução de dimensionalidade de dados).

Declaração de Tarefa 2.3: Analisar e visualizar dados para ML.

Criar gráficos (por exemplo, gráficos de dispersão, séries temporais, histogramas, gráficos de caixas).
Interpretar estatísticas descritivas (por exemplo, correlação, estatísticas resumidas, valor p).
Realizar análise de cluster (por exemplo, hierárquica, de diagnóstico, gráfico do cotovelo, tamanho do cluster).

Domínio 3: Modelagem

Declaração de Tarefa 3.1: Formular problemas de negócios como problemas de ML.

Determinar quando usar e quando não usar ML.
Conhecer a diferença entre aprendizado supervisionado e não supervisionado.
Selecionar entre classificação, regressão, previsão, clustering, recomendação e modelos de fundação.

Declaração de Tarefa 3.2: Selecionar o(s) modelo(s) apropriado(s) para um determinado problema de ML.

XGBoost, regressão logística, k-means, regressão linear, árvores de decisão, florestas aleatórias, RNN, CNN, conjunto, transferência de aprendizado e modelos de linguagem de grande porte (LLMs)
Expressar a intuição por trás dos modelos.

Declaração de Tarefa 3.3: Treinar modelos de ML.

Dividir dados entre treinamento e validação (por exemplo, validação cruzada).
Entender técnicas de otimização para treinamento de ML (por exemplo, descida do gradiente, funções de perda, convergência).
Escolher recursos computacionais apropriados (por exemplo, GPU ou CPU, distribuídos ou não distribuídos).
- Escolher plataformas de computação apropriadas (Spark ou não-Spark).
Atualizar e retreinar modelos.
- Lote ou em tempo real/online

Declaração de Tarefa 3.4: Realizar otimização de hiperparâmetros.

Realizar regularização.
- Dropout
- L1/L2
Realizar validação cruzada.
Inicializar modelos.
Entender arquitetura de redes neurais (camadas e nós), taxa de aprendizado e funções de ativação.
Entender modelos baseados em árvores (número de árvores, número de níveis).
Entender modelos lineares (taxa de aprendizado).

Declaração de Tarefa 3.5: Avaliar modelos de ML.

Evitar overfitting ou underfitting.
- Detectar e lidar com viés e variância.
Avaliar métricas (por exemplo, área sob a curva [AUC]-características de operação do receptor [ROC], acurácia, precisão, revocação, Raiz do Erro Quadrático Médio [RMSE], pontuação F1).
Interpretar matrizes de confusão.
Realizar avaliação de modelo offline e online (testes A/B).
Comparar modelos usando métricas (por exemplo, tempo para treinar um modelo, qualidade do modelo, custos de engenharia).
Realizar validação cruzada.

Domínio 4: Implementação e Operações de Aprendizado de Máquina

Declaração de Tarefa 4.1: Construir soluções de ML para desempenho, disponibilidade, escalabilidade, resiliência e tolerância a falhas.

Registrar e monitorar ambientes da AWS.
- AWS CloudTrail e Amazon CloudWatch
- Construir soluções de monitoramento de erros.
Implantar em várias regiões da AWS e várias Zonas de Disponibilidade.
Criar AMIs e imagens douradas.
Criar contêineres Docker.
Implantar grupos Auto Scaling.
Dimensionar corretamente os recursos (por exemplo, instâncias, IOPS provisionados, volumes).
Realizar balanceamento de carga.
Seguir as melhores práticas da AWS.

Declaração de Tarefa 4.2: Recomendar e implementar os serviços e recursos de ML apropriados para um determinado problema.

ML na AWS (serviços de aplicativos), por exemplo:
- Amazon Polly
- Amazon Lex
- Amazon Transcribe
- Amazon Q
Entender as cotas de serviço da AWS.
Determinar quando construir modelos personalizados e quando usar os algoritmos internos do Amazon SageMaker.
Entender a infraestrutura da AWS (por exemplo, tipos de instância) e considerações de custo.
- Usar Spot Instances para treinar modelos de aprendizado profundo usando o AWS Batch.

Declaração de Tarefa 4.3: Aplicar práticas básicas de segurança da AWS a soluções de ML.

AWS Identity and Access Management (IAM)
Políticas de bucket do S3
Grupos de segurança
VPCs
Criptografia e anonimização

Declaração de Tarefa 4.4: Implantar e operacionalizar soluções de ML.

Expor endpoints e interagir com eles.
Entender modelos de ML.
Realizar testes A/B.
Retrainear pipelines.
Depurar e solucionar problemas de modelos de ML.
- Detectar e mitigar quedas de desempenho.
- Monitorar o desempenho do modelo.

Apêndice

Tecnologias e conceitos que podem aparecer no exame

A lista a seguir contém tecnologias e conceitos que podem aparecer no exame. Esta lista não é exaustiva e está sujeita a alterações. A ordem e o posicionamento dos itens nesta lista não indicam seu peso ou importância relativa no exame:

Ingestão e coleta
Processamento e ETL
Análise e visualização de dados
Treinamento de modelo
Implantação e inferência de modelo
Operacionalização de ML
Serviços de aplicativos de ML da AWS
Linguagem relevante para ML (por exemplo, Python, Java, Scala, R, SQL)
Blocos de anotações e ambientes de desenvolvimento integrado (IDEs)

Serviços e recursos da AWS dentro do escopo

A lista a seguir contém os serviços e recursos da AWS que estão dentro do escopo do exame. Esta lista não é exaustiva e está sujeita a alterações. As ofertas da AWS aparecem em categorias que se alinham com as funções primárias das ofertas:

Análise:

Amazon Athena
Amazon Data Firehose
Amazon EMR
AWS Glue
Amazon Kinesis
Amazon Kinesis Data Streams
AWS Lake Formation
Amazon Managed Service for Apache Flink
Amazon OpenSearch Service
Amazon QuickSight

Computação:

AWS Batch
Amazon EC2
AWS Lambda

Contêineres:

Amazon Elastic Container Registry (Amazon ECR)
Amazon Elastic Container Service (Amazon ECS)
Amazon Elastic Kubernetes Service (Amazon EKS)
AWS Fargate

Banco de Dados:

Amazon Redshift

Guia oficial do exame MLS-C01