Guida all'esame AWS Certified Machine Learning - Specialty (MLS-C01)
Introduzione
L'esame AWS Certified Machine Learning - Specialty (MLS-C01) è destinato agli individui che svolgono il ruolo di sviluppatore di intelligenza artificiale e apprendimento automatico (AI/ML) o di scienziato dei dati. L'esame convalida la capacità di un candidato di progettare, costruire, distribuire, ottimizzare, addestrare, sintonizzare e mantenere soluzioni ML per problemi aziendali dati utilizzando il cloud AWS.
L'esame convalida inoltre la capacità di un candidato di completare i seguenti compiti:
- Selezionare e giustificare l'approccio ML appropriato per un determinato problema aziendale.
- Identificare i servizi AWS appropriati per implementare soluzioni ML.
- Progettare e implementare soluzioni ML scalabili, ottimizzate per i costi, affidabili e sicure.
Descrizione del candidato target
Il candidato target dovrebbe avere 2 o più anni di esperienza nello sviluppo, nell'architettura e nell'esecuzione di carichi di lavoro ML o di deep learning nel cloud AWS.
Conoscenza AWS raccomandata
Il candidato target dovrebbe avere le seguenti conoscenze AWS:
- La capacità di esprimere l'intuizione dietro gli algoritmi ML di base
- Esperienza nell'esecuzione di ottimizzazione iperparametrica di base
- Esperienza con framework ML e di deep learning
- La capacità di seguire le best practice per l'addestramento dei modelli
- La capacità di seguire le best practice per la distribuzione
- La capacità di seguire le best practice operative
Conoscenze fuori ambito per il candidato target
L'elenco seguente contiene conoscenze che non ci si aspetta che il candidato target possegga. Questo elenco non è esaustivo. La conoscenza nelle seguenti aree è fuori ambito per l'esame:
- Sviluppo di algoritmi complessi o estensivi
- Ottimizzazione iperparametrica estensiva
- Dimostrazioni e calcoli matematici complessi
- Reti avanzate e progettazione di reti
- Concetti avanzati di database, sicurezza e DevOps
- Attività DevOps per Amazon EMR
Fare riferimento all'Appendice per un elenco di tecnologie e concetti che potrebbero essere presenti nell'esame, un elenco di servizi e funzionalità AWS in ambito e un elenco di servizi e funzionalità AWS fuori ambito.
Contenuto dell'esame
Tipi di risposte
Ci sono due tipi di domande nell'esame:
- Scelta multipla: ha una risposta corretta e tre risposte errate (distrattori)
- Risposta multipla: ha due o più risposte corrette su cinque o più opzioni di risposta
Seleziona una o più risposte che completano meglio l'affermazione o rispondono alla domanda. I distrattori, o risposte errate, sono opzioni di risposta che un candidato con conoscenze o abilità incomplete potrebbe scegliere. I distrattori sono generalmente risposte plausibili che corrispondono all'ambito dei contenuti.
Le domande lasciate senza risposta vengono valutate come errate; non c'è alcuna penalità per indovinare. L'esame include 50 domande che influenzano il tuo punteggio.
Contenuto non valutato
L'esame include 15 domande non valutate che non influiscono sul tuo punteggio. AWS raccoglie informazioni sulle prestazioni in queste domande non valutate per valutarle per un futuro utilizzo come domande valutate. Queste domande non valutate non sono identificate nell'esame.
Risultati dell'esame
L'esame AWS Certified Machine Learning - Specialty (MLS-C01) ha una classificazione di superato o non superato. L'esame viene valutato rispetto a uno standard minimo stabilito dai professionisti AWS che seguono le migliori pratiche e le linee guida del settore della certificazione.
I tuoi risultati per l'esame sono riportati come punteggio scalato da 100 a 1.000. Il punteggio minimo per superare l'esame è 750. Il tuo punteggio mostra come ti sei comportato nell'esame nel suo complesso e se hai superato l'esame. I modelli di punteggio scalati aiutano a equiparare i punteggi tra più forme di esame che potrebbero avere livelli di difficoltà leggermente diversi.
Il tuo rapporto sui risultati potrebbe contenere una tabella di classificazioni delle tue prestazioni a livello di sezione. L'esame utilizza un modello di punteggio compensatorio, il che significa che non è necessario raggiungere un punteggio di superamento in ogni sezione. È necessario superare solo l'esame complessivo.
Ogni sezione dell'esame ha una ponderazione specifica, quindi alcune sezioni hanno più domande di altre. La tabella delle classificazioni contiene informazioni generali che mettono in evidenza i tuoi punti di forza e di debolezza. Usa cautela nell'interpretare i feedback a livello di sezione.
Sommario dei contenuti
Questa guida all'esame include ponderazioni, domini dei contenuti e dichiarazioni di compiti per l'esame. Questa guida non fornisce un elenco esaustivo dei contenuti dell'esame. Tuttavia, è disponibile un contesto aggiuntivo per ogni dichiarazione di compito per aiutarti a prepararti all'esame.
L'esame ha i seguenti domini dei contenuti e ponderazioni:
- Dominio 1: Data Engineering (20% del contenuto valutato)
- Dominio 2: Exploratory Data Analysis (24% del contenuto valutato)
- Dominio 3: Modellazione (36% del contenuto valutato)
- Dominio 4: Implementazione e operazioni di Machine Learning (20% del contenuto valutato)
Dominio 1: Data Engineering
Dichiarazione di compito 1.1: Creare repository di dati per ML.
- Identificare le fonti di dati (ad esempio, contenuto e posizione, fonti primarie come i dati degli utenti).
- Determinare i mezzi di archiviazione (ad esempio, database, Amazon S3, Amazon Elastic File System [Amazon EFS], Amazon Elastic Block Store [Amazon EBS]).
Dichiarazione di compito 1.2: Identificare e implementare una soluzione di data ingestion.
- Identificare gli stili e i tipi di lavori di dati (ad esempio, carico batch, streaming).
- Orchestrare le pipeline di data ingestion (carichi di lavoro ML basati su batch e carichi di lavoro ML basati su streaming).
- Amazon Kinesis
- Amazon Data Firehose
- Amazon EMR
- AWS Glue
- Amazon Servizio Gestito per Apache Flink
- Pianificare i lavori.
Dichiarazione di compito 1.3: Identificare e implementare una soluzione di trasformazione dei dati.
- Trasformare i dati in transito (ETL, AWS Glue, Amazon EMR, AWS Batch).
- Gestire i dati specifici per ML utilizzando MapReduce (ad esempio, Apache Hadoop, Apache Spark, Apache Hive).
Dominio 2: Exploratory Data Analysis
Dichiarazione di compito 2.1: Sanificare e preparare i dati per la modellazione.
- Identificare e gestire dati mancanti, dati danneggiati e parole di stop.
- Formattare, normalizzare, aumentare e scalare i dati.
- Determinare se ci sono dati etichettati sufficienti.
- Identificare strategie di mitigazione.
- Utilizzare strumenti di etichettatura dei dati (ad esempio, Amazon Mechanical Turk).
Dichiarazione di compito 2.2: Eseguire l'ingegnerizzazione delle funzionalità.
- Identificare ed estrarre funzionalità da set di dati, incluse fonti di dati come testo, audio, immagini e dataset pubblici.
- Analizzare e valutare i concetti di ingegnerizzazione delle funzionalità (ad esempio, binning, tokenizzazione, outlier, funzionalità sintetiche, codifica one-hot, riduzione della dimensionalità dei dati).
Dichiarazione di compito 2.3: Analizzare e visualizzare i dati per ML.
- Creare grafici (ad esempio, scatter plot, serie temporali, istogrammi, box plot).
- Interpretare le statistiche descrittive (ad esempio, correlazione, statistiche riepilogative, valore p).
- Eseguire l'analisi del cluster (ad esempio, gerarchica, diagnostica, curva gomito, dimensione del cluster).
Dominio 3: Modellazione
Dichiarazione di compito 3.1: Inquadrare i problemi aziendali come problemi ML.
- Determinare quando utilizzare e quando non utilizzare ML.
- Conoscere la differenza tra apprendimento supervisionato e non supervisionato.
- Selezionare tra classificazione, regressione, previsione, raggruppamento, raccomandazione e modelli di base.
Dichiarazione di compito 3.2: Selezionare il/i modello/i appropriato/i per un dato problema ML.
- XGBoost, regressione logistica, k-means, regressione lineare, alberi decisionali, foreste casuali, RNN, CNN, ensemble, transfer learning e modelli di linguaggio di grandi dimensioni (LLM)
- Esprimere l'intuizione dietro i modelli.
Dichiarazione di compito 3.3: Addestrare modelli ML.
- Suddividere i dati tra addestramento e convalida (ad esempio, convalida incrociata).
- Comprendere le tecniche di ottimizzazione per l'addestramento ML (ad esempio, discesa del gradiente, funzioni di perdita, convergenza).
- Scegliere le risorse di calcolo appropriate (ad esempio GPU o CPU, distribuite o non distribuite).
- Scegliere le piattaforme di calcolo appropriate (Spark o non Spark).
- Aggiornare e riaddestrare i modelli.
Dichiarazione di compito 3.4: Eseguire l'ottimizzazione iperparametrica.
- Eseguire la regolarizzazione.
- Eseguire la convalida incrociata.
- Inizializzare i modelli.
- Comprendere l'architettura delle reti neurali (strati e nodi), il tasso di apprendimento e le funzioni di attivazione.
- Comprendere i modelli basati su alberi (numero di alberi, numero di livelli).
- Comprendere i modelli lineari (tasso di apprendimento).
Dichiarazione di compito 3.5: Valutare i modelli ML.
- Evitare il sovradattamento o il sottoadattamento.
- Rilevare e gestire bias e varianza.
- Valutare le metriche (ad esempio, area sotto la curva [AUC]-caratteristiche operative del ricevitore [ROC], accuratezza, precisione, richiamo, Root Mean Square Error [RMSE], punteggio F1).
- Interpretare le matrici di confusione.
- Eseguire la valutazione offline e online dei modelli (test A/B).
- Confrontare i modelli utilizzando metriche (ad esempio, tempo di addestramento di un modello, qualità del modello, costi di ingegneria).
- Eseguire la convalida incrociata.
Dominio 4: Implementazione e Operazioni di Machine Learning
Dichiarazione di compito 4.1: Creare soluzioni ML per prestazioni, disponibilità, scalabilità, resilienza e tolleranza ai guasti.
- Registrare e monitorare gli ambienti AWS.
- AWS CloudTrail e Amazon CloudWatch
- Costruire soluzioni di monitoraggio degli errori.
- Distribuire in più regioni AWS e più zone di disponibilità.
- Creare AMI e immagini golden.
- Creare contenitori Docker.
- Distribuire gruppi di Auto Scaling.
- Dimensionare correttamente le risorse (ad esempio, istanze, IOPS forniti, volumi).
- Eseguire il bilanciamento del carico.
- Seguire le best practice AWS.
Dichiarazione di compito 4.2: Raccomandare e implementare i servizi e le funzionalità ML appropriati per un dato problema.
- ML su AWS (servizi applicativi), ad esempio:
- Amazon Polly
- Amazon Lex
- Amazon Transcribe
- Amazon Q
- Comprendere i limiti di servizio AWS.
- Determinare quando creare modelli personalizzati e quando utilizzare gli algoritmi incorporati di Amazon SageMaker.
- Comprendere l'infrastruttura AWS (ad esempio, tipi di istanze) e considerazioni sui costi.
- Utilizzare Spot Instance per addestrare modelli di deep learning utilizzando AWS Batch.
Dichiarazione di compito 4.3: Applicare pratiche di sicurezza AWS di base alle soluzioni ML.
- AWS Identity and Access Management (IAM)
- Criteri bucket S3
- Gruppi di sicurezza
- VPC
- Crittografia e anonimizzazione
Dichiarazione di compito 4.4: Distribuire e operare soluzioni ML.
- Esporre endpoint e interagire con essi.
- Comprendere i modelli ML.
- Eseguire test A/B.
- Ritoccare le pipeline.
- Eseguire il debug e la risoluzione dei problemi dei modelli ML.
- Rilevare e mitigare i cali delle prestazioni.
- Monitorare le prestazioni del modello.
Appendice
Tecnologie e concetti che potrebbero apparire nell'esame
L'elenco seguente contiene tecnologie e concetti che potrebbero apparire nell'esame. Questo elenco non è esaustivo ed è soggetto a modifiche. L'ordine e il posizionamento degli elementi in questo elenco non indicano il loro peso o la loro importanza relativa nell'esame:
- Ingestion e raccolta
- Elaborazione ed ETL
- Analisi e visualizzazione dei dati
- Addestramento dei modelli
- Distribuzione e inferenza dei modelli
- Operativizzazione del ML
- Servizi applicativi AWS ML
- Linguaggio pertinente al ML (ad esempio, Python, Java, Scala, R, SQL)
- Notebook e ambienti di sviluppo integrati (IDE)
Servizi e funzionalità AWS in ambito
L'elenco seguente contiene servizi e funzionalità AWS che sono in ambito per l'esame. Questo elenco non è esaustivo ed è soggetto a modifiche. Le offerte AWS appaiono in categorie che si allineano con le funzioni primarie delle offerte:
Analytics:
- Amazon Athena
- Amazon Data Firehose
- Amazon EMR
- AWS Glue
- Amazon Kinesis
- Amazon Kinesis Data Streams
- AWS Lake Formation
- Amazon Servizio Gestito per Apache Flink
- Amazon OpenSearch Service
- Amazon QuickSight
Compute:
- AWS Batch
- Amazon EC2
- AWS Lambda
Containers:
- Amazon Elastic Container Registry (Amazon ECR)
- Amazon Elastic Container Service (Amazon ECS)
- Amazon Elastic Kubernetes Service (Amazon EKS)
- AWS Fargate
Database:
Internet of Things:
Machine Learning:
- Amazon Bedrock
- Amazon Comprehend
- AWS Deep Learning AMIs (DLAMI)
- Amazon Forecast
- Amazon Fraud Detector
- Amazon Lex
- Amazon Kendra
- Amazon Mechanical Turk
- Amazon Polly
- Amazon Q
- Amazon Rekognition
- Amazon SageMaker
- Amazon Textract
- Amazon Transcribe
- Amazon Translate
Management and Governance:
- AWS CloudTrail
- Amazon CloudWatch
Networking and Content Delivery:
Security, Identity, and Compliance:
- AWS Identity and Access Management (IAM)
Storage:
- Amazon Elastic Block Store (Amazon EBS)
- Amazon Elastic File System (Amazon EFS)
- Amazon FSx
- Amazon S3
Servizi e funzionalità AWS fuori ambito
L'elenco seguente contiene servizi e funzionalità AWS che sono fuori ambito per l'esame. Questo elenco non è esaustivo ed è soggetto a modifiche. Le offerte AWS che sono del tutto irrilevanti per i ruoli lavorativi target dell'esame sono escluse da questo elenco:
Analytics:
Machine Learning:
- AWS DeepRacer
- Amazon Machine Learning (Amazon ML)