Guida all'esame AWS Certified Machine Learning - Specialty (MLS-C01)

Introduzione

L'esame AWS Certified Machine Learning - Specialty (MLS-C01) è destinato agli individui che svolgono il ruolo di sviluppatore di intelligenza artificiale e apprendimento automatico (AI/ML) o di scienziato dei dati. L'esame convalida la capacità di un candidato di progettare, costruire, distribuire, ottimizzare, addestrare, sintonizzare e mantenere soluzioni ML per problemi aziendali dati utilizzando il cloud AWS.

L'esame convalida inoltre la capacità di un candidato di completare i seguenti compiti:

Selezionare e giustificare l'approccio ML appropriato per un determinato problema aziendale.
Identificare i servizi AWS appropriati per implementare soluzioni ML.
Progettare e implementare soluzioni ML scalabili, ottimizzate per i costi, affidabili e sicure.

Descrizione del candidato target

Il candidato target dovrebbe avere 2 o più anni di esperienza nello sviluppo, nell'architettura e nell'esecuzione di carichi di lavoro ML o di deep learning nel cloud AWS.

Conoscenza AWS raccomandata

Il candidato target dovrebbe avere le seguenti conoscenze AWS:

La capacità di esprimere l'intuizione dietro gli algoritmi ML di base
Esperienza nell'esecuzione di ottimizzazione iperparametrica di base
Esperienza con framework ML e di deep learning
La capacità di seguire le best practice per l'addestramento dei modelli
La capacità di seguire le best practice per la distribuzione
La capacità di seguire le best practice operative

Conoscenze fuori ambito per il candidato target

L'elenco seguente contiene conoscenze che non ci si aspetta che il candidato target possegga. Questo elenco non è esaustivo. La conoscenza nelle seguenti aree è fuori ambito per l'esame:

Sviluppo di algoritmi complessi o estensivi
Ottimizzazione iperparametrica estensiva
Dimostrazioni e calcoli matematici complessi
Reti avanzate e progettazione di reti
Concetti avanzati di database, sicurezza e DevOps
Attività DevOps per Amazon EMR

Fare riferimento all'Appendice per un elenco di tecnologie e concetti che potrebbero essere presenti nell'esame, un elenco di servizi e funzionalità AWS in ambito e un elenco di servizi e funzionalità AWS fuori ambito.

Contenuto dell'esame

Tipi di risposte

Ci sono due tipi di domande nell'esame:

Scelta multipla: ha una risposta corretta e tre risposte errate (distrattori)
Risposta multipla: ha due o più risposte corrette su cinque o più opzioni di risposta

Seleziona una o più risposte che completano meglio l'affermazione o rispondono alla domanda. I distrattori, o risposte errate, sono opzioni di risposta che un candidato con conoscenze o abilità incomplete potrebbe scegliere. I distrattori sono generalmente risposte plausibili che corrispondono all'ambito dei contenuti.

Le domande lasciate senza risposta vengono valutate come errate; non c'è alcuna penalità per indovinare. L'esame include 50 domande che influenzano il tuo punteggio.

Contenuto non valutato

L'esame include 15 domande non valutate che non influiscono sul tuo punteggio. AWS raccoglie informazioni sulle prestazioni in queste domande non valutate per valutarle per un futuro utilizzo come domande valutate. Queste domande non valutate non sono identificate nell'esame.

Risultati dell'esame

L'esame AWS Certified Machine Learning - Specialty (MLS-C01) ha una classificazione di superato o non superato. L'esame viene valutato rispetto a uno standard minimo stabilito dai professionisti AWS che seguono le migliori pratiche e le linee guida del settore della certificazione.

I tuoi risultati per l'esame sono riportati come punteggio scalato da 100 a 1.000. Il punteggio minimo per superare l'esame è 750. Il tuo punteggio mostra come ti sei comportato nell'esame nel suo complesso e se hai superato l'esame. I modelli di punteggio scalati aiutano a equiparare i punteggi tra più forme di esame che potrebbero avere livelli di difficoltà leggermente diversi.

Il tuo rapporto sui risultati potrebbe contenere una tabella di classificazioni delle tue prestazioni a livello di sezione. L'esame utilizza un modello di punteggio compensatorio, il che significa che non è necessario raggiungere un punteggio di superamento in ogni sezione. È necessario superare solo l'esame complessivo.

Ogni sezione dell'esame ha una ponderazione specifica, quindi alcune sezioni hanno più domande di altre. La tabella delle classificazioni contiene informazioni generali che mettono in evidenza i tuoi punti di forza e di debolezza. Usa cautela nell'interpretare i feedback a livello di sezione.

Sommario dei contenuti

Questa guida all'esame include ponderazioni, domini dei contenuti e dichiarazioni di compiti per l'esame. Questa guida non fornisce un elenco esaustivo dei contenuti dell'esame. Tuttavia, è disponibile un contesto aggiuntivo per ogni dichiarazione di compito per aiutarti a prepararti all'esame.

L'esame ha i seguenti domini dei contenuti e ponderazioni:

Dominio 1: Data Engineering (20% del contenuto valutato)
Dominio 2: Exploratory Data Analysis (24% del contenuto valutato)
Dominio 3: Modellazione (36% del contenuto valutato)
Dominio 4: Implementazione e operazioni di Machine Learning (20% del contenuto valutato)

Dominio 1: Data Engineering

Dichiarazione di compito 1.1: Creare repository di dati per ML.

Identificare le fonti di dati (ad esempio, contenuto e posizione, fonti primarie come i dati degli utenti).
Determinare i mezzi di archiviazione (ad esempio, database, Amazon S3, Amazon Elastic File System [Amazon EFS], Amazon Elastic Block Store [Amazon EBS]).

Dichiarazione di compito 1.2: Identificare e implementare una soluzione di data ingestion.

Identificare gli stili e i tipi di lavori di dati (ad esempio, carico batch, streaming).
Orchestrare le pipeline di data ingestion (carichi di lavoro ML basati su batch e carichi di lavoro ML basati su streaming).
- Amazon Kinesis
- Amazon Data Firehose
- Amazon EMR
- AWS Glue
- Amazon Servizio Gestito per Apache Flink
Pianificare i lavori.

Dichiarazione di compito 1.3: Identificare e implementare una soluzione di trasformazione dei dati.

Trasformare i dati in transito (ETL, AWS Glue, Amazon EMR, AWS Batch).
Gestire i dati specifici per ML utilizzando MapReduce (ad esempio, Apache Hadoop, Apache Spark, Apache Hive).

Dominio 2: Exploratory Data Analysis

Dichiarazione di compito 2.1: Sanificare e preparare i dati per la modellazione.

Identificare e gestire dati mancanti, dati danneggiati e parole di stop.
Formattare, normalizzare, aumentare e scalare i dati.
Determinare se ci sono dati etichettati sufficienti.
- Identificare strategie di mitigazione.
- Utilizzare strumenti di etichettatura dei dati (ad esempio, Amazon Mechanical Turk).

Dichiarazione di compito 2.2: Eseguire l'ingegnerizzazione delle funzionalità.

Identificare ed estrarre funzionalità da set di dati, incluse fonti di dati come testo, audio, immagini e dataset pubblici.
Analizzare e valutare i concetti di ingegnerizzazione delle funzionalità (ad esempio, binning, tokenizzazione, outlier, funzionalità sintetiche, codifica one-hot, riduzione della dimensionalità dei dati).

Dichiarazione di compito 2.3: Analizzare e visualizzare i dati per ML.

Creare grafici (ad esempio, scatter plot, serie temporali, istogrammi, box plot).
Interpretare le statistiche descrittive (ad esempio, correlazione, statistiche riepilogative, valore p).
Eseguire l'analisi del cluster (ad esempio, gerarchica, diagnostica, curva gomito, dimensione del cluster).

Dominio 3: Modellazione

Dichiarazione di compito 3.1: Inquadrare i problemi aziendali come problemi ML.

Determinare quando utilizzare e quando non utilizzare ML.
Conoscere la differenza tra apprendimento supervisionato e non supervisionato.
Selezionare tra classificazione, regressione, previsione, raggruppamento, raccomandazione e modelli di base.

Dichiarazione di compito 3.2: Selezionare il/i modello/i appropriato/i per un dato problema ML.

XGBoost, regressione logistica, k-means, regressione lineare, alberi decisionali, foreste casuali, RNN, CNN, ensemble, transfer learning e modelli di linguaggio di grandi dimensioni (LLM)
Esprimere l'intuizione dietro i modelli.

Dichiarazione di compito 3.3: Addestrare modelli ML.

Suddividere i dati tra addestramento e convalida (ad esempio, convalida incrociata).
Comprendere le tecniche di ottimizzazione per l'addestramento ML (ad esempio, discesa del gradiente, funzioni di perdita, convergenza).
Scegliere le risorse di calcolo appropriate (ad esempio GPU o CPU, distribuite o non distribuite).
- Scegliere le piattaforme di calcolo appropriate (Spark o non Spark).
Aggiornare e riaddestrare i modelli.
- Batch o real-time/online

Dichiarazione di compito 3.4: Eseguire l'ottimizzazione iperparametrica.

Eseguire la regolarizzazione.
- Dropout
- L1/L2
Eseguire la convalida incrociata.
Inizializzare i modelli.
Comprendere l'architettura delle reti neurali (strati e nodi), il tasso di apprendimento e le funzioni di attivazione.
Comprendere i modelli basati su alberi (numero di alberi, numero di livelli).
Comprendere i modelli lineari (tasso di apprendimento).

Dichiarazione di compito 3.5: Valutare i modelli ML.

Evitare il sovradattamento o il sottoadattamento.
- Rilevare e gestire bias e varianza.
Valutare le metriche (ad esempio, area sotto la curva [AUC]-caratteristiche operative del ricevitore [ROC], accuratezza, precisione, richiamo, Root Mean Square Error [RMSE], punteggio F1).
Interpretare le matrici di confusione.
Eseguire la valutazione offline e online dei modelli (test A/B).
Confrontare i modelli utilizzando metriche (ad esempio, tempo di addestramento di un modello, qualità del modello, costi di ingegneria).
Eseguire la convalida incrociata.

Dominio 4: Implementazione e Operazioni di Machine Learning

Dichiarazione di compito 4.1: Creare soluzioni ML per prestazioni, disponibilità, scalabilità, resilienza e tolleranza ai guasti.

Registrare e monitorare gli ambienti AWS.
- AWS CloudTrail e Amazon CloudWatch
- Costruire soluzioni di monitoraggio degli errori.
Distribuire in più regioni AWS e più zone di disponibilità.
Creare AMI e immagini golden.
Creare contenitori Docker.
Distribuire gruppi di Auto Scaling.
Dimensionare correttamente le risorse (ad esempio, istanze, IOPS forniti, volumi).
Eseguire il bilanciamento del carico.
Seguire le best practice AWS.

Dichiarazione di compito 4.2: Raccomandare e implementare i servizi e le funzionalità ML appropriati per un dato problema.

ML su AWS (servizi applicativi), ad esempio:
- Amazon Polly
- Amazon Lex
- Amazon Transcribe
- Amazon Q
Comprendere i limiti di servizio AWS.
Determinare quando creare modelli personalizzati e quando utilizzare gli algoritmi incorporati di Amazon SageMaker.
Comprendere l'infrastruttura AWS (ad esempio, tipi di istanze) e considerazioni sui costi.
- Utilizzare Spot Instance per addestrare modelli di deep learning utilizzando AWS Batch.

Dichiarazione di compito 4.3: Applicare pratiche di sicurezza AWS di base alle soluzioni ML.

AWS Identity and Access Management (IAM)
Criteri bucket S3
Gruppi di sicurezza
VPC
Crittografia e anonimizzazione

Dichiarazione di compito 4.4: Distribuire e operare soluzioni ML.

Esporre endpoint e interagire con essi.
Comprendere i modelli ML.
Eseguire test A/B.
Ritoccare le pipeline.
Eseguire il debug e la risoluzione dei problemi dei modelli ML.
- Rilevare e mitigare i cali delle prestazioni.
- Monitorare le prestazioni del modello.

Appendice

Tecnologie e concetti che potrebbero apparire nell'esame

L'elenco seguente contiene tecnologie e concetti che potrebbero apparire nell'esame. Questo elenco non è esaustivo ed è soggetto a modifiche. L'ordine e il posizionamento degli elementi in questo elenco non indicano il loro peso o la loro importanza relativa nell'esame:

Ingestion e raccolta
Elaborazione ed ETL
Analisi e visualizzazione dei dati
Addestramento dei modelli
Distribuzione e inferenza dei modelli
Operativizzazione del ML
Servizi applicativi AWS ML
Linguaggio pertinente al ML (ad esempio, Python, Java, Scala, R, SQL)
Notebook e ambienti di sviluppo integrati (IDE)

Servizi e funzionalità AWS in ambito

L'elenco seguente contiene servizi e funzionalità AWS che sono in ambito per l'esame. Questo elenco non è esaustivo ed è soggetto a modifiche. Le offerte AWS appaiono in categorie che si allineano con le funzioni primarie delle offerte:

Analytics:

Amazon Athena
Amazon Data Firehose
Amazon EMR
AWS Glue
Amazon Kinesis
Amazon Kinesis Data Streams
AWS Lake Formation
Amazon Servizio Gestito per Apache Flink
Amazon OpenSearch Service
Amazon QuickSight

Compute:

AWS Batch
Amazon EC2
AWS Lambda

Containers:

Amazon Elastic Container Registry (Amazon ECR)
Amazon Elastic Container Service (Amazon ECS)
Amazon Elastic Kubernetes Service (Amazon EKS)
AWS Fargate

Database:

Amazon Redshift

Internet of Things:

AWS IoT Greengrass

Machine Learning:

Amazon Bedrock
Amazon Comprehend
AWS Deep Learning AMIs (DLAMI)
Amazon Forecast
Amazon Fraud Detector
Amazon Lex
Amazon Kendra
Amazon Mechanical Turk
Amazon Polly
Amazon Q
Amazon Rekognition
Amazon SageMaker
Amazon Textract
Amazon Transcribe
Amazon Translate

Management and Governance:

AWS CloudTrail
Amazon CloudWatch

Networking and Content Delivery:

Amazon VPC

Security, Identity, and Compliance:

AWS Identity and Access Management (IAM)

Storage:

Amazon Elastic Block Store (Amazon EBS)
Amazon Elastic File System (Amazon EFS)
Amazon FSx
Amazon S3

Servizi e funzionalità AWS fuori ambito

L'elenco seguente contiene servizi e funzionalità AWS che sono fuori ambito per l'esame. Questo elenco non è esaustivo ed è soggetto a modifiche. Le offerte AWS che sono del tutto irrilevanti per i ruoli lavorativi target dell'esame sono escluse da questo elenco:

Analytics:

AWS Data Pipeline

Machine Learning:

AWS DeepRacer
Amazon Machine Learning (Amazon ML)

Guida ufficiale all'esame MLS-C01

Guida all'esame AWS Certified Machine Learning - Specialty (MLS-C01)

Introduzione

Descrizione del candidato target

Conoscenza AWS raccomandata

Conoscenze fuori ambito per il candidato target

Contenuto dell'esame

Tipi di risposte

Contenuto non valutato

Risultati dell'esame

Sommario dei contenuti

Dominio 1: Data Engineering

Dichiarazione di compito 1.1: Creare repository di dati per ML.

Dichiarazione di compito 1.2: Identificare e implementare una soluzione di data ingestion.

Dichiarazione di compito 1.3: Identificare e implementare una soluzione di trasformazione dei dati.

Dominio 2: Exploratory Data Analysis

Dichiarazione di compito 2.1: Sanificare e preparare i dati per la modellazione.

Dichiarazione di compito 2.2: Eseguire l'ingegnerizzazione delle funzionalità.

Dichiarazione di compito 2.3: Analizzare e visualizzare i dati per ML.

Dominio 3: Modellazione

Dichiarazione di compito 3.1: Inquadrare i problemi aziendali come problemi ML.

Dichiarazione di compito 3.2: Selezionare il/i modello/i appropriato/i per un dato problema ML.

Dichiarazione di compito 3.3: Addestrare modelli ML.

Dichiarazione di compito 3.4: Eseguire l'ottimizzazione iperparametrica.

Dichiarazione di compito 3.5: Valutare i modelli ML.

Dominio 4: Implementazione e Operazioni di Machine Learning

Dichiarazione di compito 4.1: Creare soluzioni ML per prestazioni, disponibilità, scalabilità, resilienza e tolleranza ai guasti.

Dichiarazione di compito 4.2: Raccomandare e implementare i servizi e le funzionalità ML appropriati per un dato problema.

Dichiarazione di compito 4.3: Applicare pratiche di sicurezza AWS di base alle soluzioni ML.

Dichiarazione di compito 4.4: Distribuire e operare soluzioni ML.

Appendice

Tecnologie e concetti che potrebbero apparire nell'esame

Servizi e funzionalità AWS in ambito

Analytics:

Compute:

Containers:

Database:

Internet of Things:

Machine Learning:

Management and Governance:

Networking and Content Delivery:

Security, Identity, and Compliance:

Storage:

Servizi e funzionalità AWS fuori ambito

Analytics:

Machine Learning: