Esame di certificazione AWS Certified Machine Learning Engineer - Associate (MLA-C01)
Introduzione
L'esame AWS Certified Machine Learning Engineer - Associate (MLA-C01) valuta la capacità del candidato di creare, rendere operativo, distribuire e mantenere soluzioni e pipeline di machine learning (ML) utilizzando il cloud AWS.
L'esame valuta inoltre la capacità del candidato di svolgere i seguenti compiti:
- Acquisire, trasformare, convalidare e preparare i dati per il modellamento ML.
- Selezionare approcci di modellazione generali, addestrare modelli, ottimizzare gli iperparametri, analizzare le prestazioni dei modelli e gestire le versioni dei modelli.
- Scegliere l'infrastruttura di distribuzione e i punti finali, allocare le risorse di calcolo e configurare il ridimensionamento automatico in base ai requisiti.
- Impostare pipeline di integrazione continua e distribuzione continua (CI/CD) per automatizzare l'orchestrazione dei flussi di lavoro ML.
- Monitorare modelli, dati e infrastruttura per rilevare problemi.
- Proteggere i sistemi e le risorse ML attraverso controlli di accesso, funzionalità di conformità e best practice.
Descrizione del candidato target
Il candidato target dovrebbe avere almeno 1 anno di esperienza nell'utilizzo di Amazon SageMaker e altri servizi AWS per l'ingegneria ML. Il candidato target dovrebbe inoltre avere almeno 1 anno di esperienza in un ruolo correlato come sviluppatore software back-end, sviluppatore DevOps, ingegnere dei dati o scienziato dei dati.
Conoscenze IT generali raccomandate
Il candidato target dovrebbe avere le seguenti conoscenze IT generali:
- Comprensione di base degli algoritmi ML comuni e dei loro casi d'uso
- Nozioni di base sull'ingegneria dei dati, inclusa la conoscenza dei formati di dati comuni, dell'acquisizione e della trasformazione per lavorare con pipeline di dati ML
- Conoscenza delle query e della trasformazione dei dati
- Conoscenza delle best practice di ingegneria del software per lo sviluppo, la distribuzione e il debug di codice modulare e riutilizzabile
- Familiarità con il provisioning e il monitoraggio delle risorse ML cloud e on-premises
- Esperienza con pipeline CI/CD e infrastruttura as code (IaC)
- Esperienza con repository di codice per il controllo della versione e le pipeline CI/CD
Conoscenze AWS raccomandate
Il candidato target dovrebbe avere le seguenti conoscenze AWS:
- Conoscenza delle funzionalità e degli algoritmi di SageMaker per la creazione e la distribuzione di modelli
- Conoscenza dei servizi AWS di archiviazione e elaborazione dei dati per preparare i dati per il modellamento
- Familiarità con la distribuzione di applicazioni e infrastrutture su AWS
- Conoscenza degli strumenti di monitoraggio per la registrazione e la risoluzione dei problemi dei sistemi ML
- Conoscenza dei servizi AWS per l'automazione e l'orchestrazione di pipeline CI/CD
- Comprensione delle best practice di sicurezza AWS per la gestione delle identità e degli accessi, la crittografia e la protezione dei dati
Compiti lavorativi fuori ambito per il candidato target
L'elenco seguente contiene i compiti lavorativi che il candidato target non è tenuto a essere in grado di svolgere. Questo elenco non è esaustivo. Questi compiti sono fuori ambito per l'esame:
- Progettazione e architettura di soluzioni ML complete end-to-end
- Impostazione di best practice e guida di strategie ML
- Gestione dell'integrazione con una vasta gamma di servizi o di nuovi strumenti e tecnologie
- Lavoro approfondito in due o più ambiti ML (ad esempio, natural language processing [NLP], computer vision)
- Quantizzazione dei modelli e analisi dell'impatto sulla precisione
Consultare l'appendice per un elenco dei servizi e delle funzionalità AWS inclusi nell'ambito e un elenco dei servizi e delle funzionalità AWS esclusi dall'ambito.
Contenuto dell'esame
Tipologie di domande
L'esame contiene uno o più dei seguenti tipi di domande:
- Scelta multipla: Ha una risposta corretta e tre risposte errate (distrattori).
- Risposta multipla: Ha due o più risposte corrette su cinque o più opzioni di risposta. È necessario selezionare tutte le risposte corrette per ottenere credito per la domanda.
- Ordinamento: Ha un elenco di 3-5 risposte da completare in un determinato ordine. È necessario selezionare le risposte corrette e posizionarle nell'ordine corretto per ottenere credito per la domanda.
- Abbinamento: Ha un elenco di risposte da abbinare a un elenco di 3-7 richieste. È necessario abbinare correttamente tutte le coppie per ottenere credito per la domanda.
- Caso di studio: Ha uno scenario con due o più domande sullo scenario. Lo scenario è lo stesso per ogni domanda del caso di studio. Ogni domanda del caso di studio verrà valutata separatamente. Si otterrà credito per ogni domanda a cui si risponde correttamente nel caso di studio.
Le domande non risposte nell'esame vengono considerate errate. Non c'è penalità per indovinare. L'esame include 50 domande che influenzano il punteggio.¹
Contenuti non valutati
L'esame include 15 domande non valutate che non influenzano il punteggio. AWS raccoglie informazioni sulle prestazioni di queste domande non valutate per valutarle per un futuro utilizzo come domande valutate. Queste domande non valutate non sono identificate nell'esame.
¹ Non si applica alla versione beta dell'esame. È possibile trovare maggiori informazioni sugli esami beta in generale sul sito Web delle certificazioni AWS.
Risultati dell'esame
L'esame AWS Certified Machine Learning Engineer - Associate (MLA-C01) ha una designazione di pass o fail. L'esame viene valutato rispetto a uno standard minimo stabilito dai professionisti AWS che seguono le migliori pratiche e le linee guida del settore delle certificazioni.
I risultati dell'esame vengono segnalati come punteggio scalato da 100 a 1.000. Il punteggio minimo per il superamento è 720. Il tuo punteggio mostra come ti sei comportato nell'esame nel suo complesso e se hai superato l'esame. I modelli di punteggio scalati aiutano a equiparare i punteggi tra più moduli di esame che potrebbero avere livelli di difficoltà leggermente diversi.
Il tuo report dei risultati potrebbe contenere una tabella di classificazioni delle prestazioni a livello di sezione. L'esame utilizza un modello di punteggio compensativo, il che significa che non è necessario raggiungere un punteggio di passaggio in ciascuna sezione. È sufficiente superare l'esame complessivamente.
Ogni sezione dell'esame ha una ponderazione specifica, quindi alcune sezioni hanno più domande di altre. La tabella delle classificazioni contiene informazioni generali che evidenziano i tuoi punti di forza e di debolezza. Usa cautela nell'interpretare i commenti a livello di sezione.
Struttura dei contenuti
Questa guida all'esame include pesi, domini di contenuto e dichiarazioni di attività per l'esame. Questa guida non fornisce un elenco esaustivo dei contenuti dell'esame. Tuttavia, è disponibile un contesto aggiuntivo per ogni dichiarazione di attività per aiutarti a prepararti all'esame.
L'esame ha i seguenti domini di contenuto e pesi:
- Dominio 1: Preparazione dei dati per il machine learning (ML) (28% del contenuto valutato)
- Dominio 2: Sviluppo di modelli ML (26% del contenuto valutato)
- Dominio 3: Distribuzione e orchestrazione dei flussi di lavoro ML (22% del contenuto valutato)
- Dominio 4: Monitoraggio, manutenzione e sicurezza delle soluzioni ML (24% del contenuto valutato)
Dominio 1: Preparazione dei dati per il machine learning (ML)
Dichiarazione di attività 1.1: Acquisire e archiviare i dati.
Conoscenze di:
- Formati e meccanismi di acquisizione dei dati (ad esempio, formati convalidati e non convalidati, Apache Parquet, JSON, CSV, Apache ORC, Apache Avro, RecordIO)
- Come utilizzare le principali origini dati AWS (ad esempio, Amazon S3, Amazon Elastic File System [Amazon EFS], Amazon FSx per NetApp ONTAP)
- Come utilizzare le origini di dati in streaming AWS per acquisire i dati (ad esempio, Amazon Kinesis, Apache Flink, Apache Kafka)
- Opzioni di archiviazione AWS, inclusi casi d'uso e compromessi
Abilità in:
- Estrarre dati dall'archiviazione (ad esempio, Amazon S3, Amazon Elastic Block Store [Amazon EBS], Amazon EFS, Amazon RDS, Amazon DynamoDB) utilizzando le relative opzioni di servizio AWS (ad esempio, Amazon S3 Transfer Acceleration, Amazon EBS Provisioned IOPS)
- Scegliere i formati di dati appropriati (ad esempio, Parquet, JSON, CSV, ORC) in base ai modelli di accesso ai dati
- Acquisire dati in Amazon SageMaker Data Wrangler e SageMaker Feature Store
- Unire dati da più origini (ad esempio, utilizzando tecniche di programmazione, AWS Glue, Apache Spark)
- Risolvere e diagnosticare problemi di acquisizione e archiviazione dei dati relativi a capacità e scalabilità
- Prendere decisioni iniziali sull'archiviazione in base a costo, prestazioni e struttura dei dati
Dichiarazione di attività 1.2: Trasformare i dati ed eseguire l'ingegneria delle funzionalità.
Conoscenze di:
- Tecniche di pulizia e trasformazione dei dati (ad esempio, rilevamento e trattamento degli outlier, imputazione dei dati mancanti, combinazione, deduplicazione)
- Tecniche di ingegneria delle funzionalità (ad esempio, scalatura e standardizzazione dei dati, suddivisione delle funzionalità, binning, trasformazione logaritmica, normalizzazione)
- Tecniche di codifica (ad esempio, codifica one-hot, codifica binaria, codifica delle etichette, tokenizzazione)
- Strumenti per esplorare, visualizzare o trasformare dati e funzionalità (ad esempio, SageMaker Data Wrangler, AWS Glue, AWS Glue DataBrew)
- Servizi che trasformano dati in streaming (ad esempio, AWS Lambda, Spark)
- Servizi di annotazione e etichettatura dei dati che creano dataset etichettati di alta qualità
Abilità in:
- Trasformare i dati utilizzando strumenti AWS (ad esempio, AWS Glue, AWS Glue DataBrew, Spark in esecuzione su Amazon EMR, SageMaker Data Wrangler)
- Creare e gestire funzionalità utilizzando strumenti AWS (ad esempio, SageMaker Feature Store)
- Convalidare ed etichettare i dati utilizzando servizi AWS (ad esempio, SageMaker Ground Truth, Amazon Mechanical Turk)
Dichiarazione di attività 1.3: Garantire l'integrità dei dati e preparare i dati per il modellamento.
Conoscenze di:
- Metriche di bias pre-training per dati numerici, di testo e di immagini (ad esempio, squilibrio della classe [CI], differenza nelle proporzioni delle etichette [DPL])
- Strategie per affrontare il CI in dataset numerici, di testo e di immagini (ad esempio, generazione di dati sintetici, rilevamento)
- Tecniche per crittografare i dati
- Classificazione, anonimizzazione e mascheramento dei dati
- Implicazioni dei requisiti di conformità (ad esempio, informazioni di identificazione personale [PII], informazioni sanitarie protette [PHI], residenza dei dati)
Abilità in:
- Convalidare la qualità dei dati (ad esempio, utilizzando AWS Glue DataBrew e AWS Glue Data Quality)
- Identificare e mitigare le fonti di bias nei dati (ad esempio, bias di selezione, bias di misurazione) utilizzando strumenti AWS (ad esempio, SageMaker Clarify)
- Preparare i dati per ridurre il bias di previsione (ad esempio, utilizzando la suddivisione, la mescolatura e l'aumento del dataset)
- Configurare i dati per il caricamento nella risorsa di training del modello (ad esempio, Amazon EFS, Amazon FSx)
Dominio 2: Sviluppo di modelli ML
Dichiarazione di attività 2.1: Scegliere un approccio di modellazione.
Conoscenze di:
- Capacità e utilizzi appropriati degli algoritmi ML per risolvere problemi aziendali
- Come utilizzare i servizi AWS di intelligenza artificiale (AI) (ad esempio, Amazon Translate, Amazon Transcribe, Amazon Rekognition, Amazon Bedrock) per risolvere specifici problemi aziendali
- Come considerare l'interpretabilità durante la selezione del modello o dell'algoritmo
- Algoritmi incorporati in SageMaker e quando applicarli
Abilità in:
- Valutare i dati disponibili e la complessità del problema per determinare la fattibilità di una soluzione ML
- Confrontare e selezionare i modelli o gli algoritmi ML appropriati per risolvere problemi specifici
- Scegliere algoritmi incorporati, modelli di base e modelli di soluzione (ad esempio, in SageMaker JumpStart e Amazon Bedrock)
- Selezionare modelli o algoritmi in base ai costi
- Selezionare servizi AI per risolvere esigenze aziendali comuni
Dichiarazione di attività 2.2: Addestrare e perfezionare i modelli.
Conoscenze di:
- Elementi del processo di training (ad esempio, epoca, step, dimensione del batch)
- Metodi per ridurre il tempo di training del modello (ad esempio, arresto anticipato, training distribuito)
- Fattori che influenzano le dimensioni del modello
- Metodi per migliorare le prestazioni del modello
- Vantaggi delle tecniche di regolarizzazione (ad esempio, dropout, weight decay, L1 e L2)
- Tecniche di ottimizzazione degli iperparametri (ad esempio, ricerca casuale, ottimizzazione bayesiana)
- Iperparametri del modello e loro effetti sulle prestazioni del modello (ad esempio, numero di alberi in un modello basato su alberi, numero di livelli in una rete neurale)
- Metodi per integrare modelli creati al di fuori di SageMaker in SageMaker
Abilità in:
- Utilizzare gli algoritmi incorporati in SageMaker e le comuni librerie ML per sviluppare modelli ML
- Utilizzare la modalità script di Sag