Guide d'examen AWS Certified Machine Learning - Specialty (MLS-C01)

Introduction

L'examen AWS Certified Machine Learning - Specialty (MLS-C01) est destiné aux personnes qui occupent un rôle de développement d'intelligence artificielle et d'apprentissage automatique (IA/ML) ou de science des données. L'examen valide les capacités d'un candidat à concevoir, construire, déployer, optimiser, former, régler et maintenir des solutions ML pour des problèmes d'entreprise donnés en utilisant le cloud AWS.

L'examen valide également la capacité d'un candidat à effectuer les tâches suivantes :

Sélectionner et justifier l'approche ML appropriée pour un problème commercial donné.
Identifier les services AWS appropriés pour mettre en œuvre des solutions ML.
Concevoir et mettre en œuvre des solutions ML évolutives, optimisées en termes de coûts, fiables et sécurisées.

Description du candidat cible

Le candidat cible devrait avoir 2 ans ou plus d'expérience dans le développement, l'architecture et l'exécution de charges de travail ML ou d'apprentissage en profondeur dans le cloud AWS.

Connaissances AWS recommandées

Le candidat cible devrait avoir les connaissances AWS suivantes :

La capacité d'exprimer l'intuition derrière les algorithmes ML de base
Une expérience dans l'optimisation des hyperparamètres de base
Une expérience avec les frameworks ML et d'apprentissage en profondeur
La capacité de suivre les meilleures pratiques pour la formation des modèles
La capacité de suivre les meilleures pratiques de déploiement
La capacité de suivre les meilleures pratiques opérationnelles

Connaissances hors de portée du candidat cible

La liste suivante contient des connaissances que le candidat cible n'est pas censé avoir. Cette liste n'est pas exhaustive. Les connaissances dans les domaines suivants sont hors de portée de l'examen :

Développement d'algorithmes complexes ou approfondis
Optimisation avancée des hyperparamètres
Preuves mathématiques et calculs complexes
Réseaux avancés et conception de réseau
Concepts avancés en matière de bases de données, de sécurité et de DevOps
Tâches DevOps pour Amazon EMR

Reportez-vous à l'annexe pour obtenir une liste des technologies et concepts susceptibles d'apparaître dans l'examen, une liste des services et fonctionnalités AWS dans le champ et une liste des services et fonctionnalités AWS hors du champ.

Contenu de l'examen

Types de réponses

Il existe deux types de questions dans l'examen :

Choix multiple : a une réponse correcte et trois réponses incorrectes (distracteurs)
Réponses multiples : a deux réponses correctes ou plus parmi cinq options de réponse ou plus

Sélectionnez une ou plusieurs réponses qui complètent le mieux l'énoncé ou répondent à la question. Les distracteurs ou réponses incorrectes sont des options de réponse qu'un candidat ayant des connaissances ou des compétences incomplètes pourrait choisir. Les distracteurs sont généralement des réponses plausibles qui correspondent au domaine de contenu.

Les questions sans réponse sont considérées comme incorrectes ; il n'y a pas de pénalité pour deviner. L'examen comprend 50 questions qui affectent votre score.

Contenu non noté

L'examen comprend 15 questions non notées qui n'affectent pas votre score. AWS collecte des informations sur les performances de ces questions non notées pour les évaluer en vue d'une utilisation future en tant que questions notées. Ces questions non notées ne sont pas identifiées dans l'examen.

Résultats de l'examen

L'examen AWS Certified Machine Learning - Specialty (MLS-C01) a une désignation de réussite ou d'échec. L'examen est noté par rapport à une norme minimale établie par les professionnels d'AWS qui suivent les meilleures pratiques et directives de l'industrie de la certification.

Vos résultats pour l'examen sont rapportés sous forme de score étalon de 100 à 1 000. Le score de passage minimum est de 750. Votre score indique vos performances globales à l'examen et si vous avez réussi. Les modèles de notation étalonnés aident à équilibrer les scores entre plusieurs formulaires d'examen qui peuvent avoir des niveaux de difficulté légèrement différents.

Votre relevé de notes peut contenir un tableau des classifications de vos performances par section. L'examen utilise un modèle de notation compensatoire, ce qui signifie que vous n'avez pas besoin d'obtenir un score de passage dans chaque section. Vous devez réussir uniquement l'examen dans son ensemble.

Chaque section de l'examen a une pondération spécifique, de sorte que certaines sections comportent plus de questions que d'autres. Le tableau des classifications contient des informations générales qui mettent en évidence vos points forts et vos points faibles. Faites attention lorsque vous interprétez les commentaires au niveau de la section.

Plan de contenu

Ce guide d'examen comprend les pondérations, les domaines de contenu et les énoncés de tâches pour l'examen. Ce guide ne fournit pas une liste exhaustive du contenu de l'examen. Cependant, un contexte supplémentaire pour chaque énoncé de tâche est disponible pour vous aider à vous préparer à l'examen.

L'examen a les domaines de contenu et les pondérations suivants :

Domaine 1 : Ingénierie des données (20 % du contenu noté)
Domaine 2 : Analyse exploratoire des données (24 % du contenu noté)
Domaine 3 : Modélisation (36 % du contenu noté)
Domaine 4 : Mise en œuvre et opérations de l'apprentissage automatique (20 % du contenu noté)

Domaine 1 : Ingénierie des données

Énoncé de tâche 1.1 : Créer des référentiels de données pour l'apprentissage automatique.

Identifier les sources de données (par exemple, le contenu et l'emplacement, les sources primaires telles que les données utilisateur).
Déterminer les supports de stockage (par exemple, bases de données, Amazon S3, Amazon Elastic File System [Amazon EFS], Amazon Elastic Block Store [Amazon EBS]).

Énoncé de tâche 1.2 : Identifier et mettre en œuvre une solution d'ingestion de données.

Identifier les styles et les types de tâches de données (par exemple, chargement par lots, diffusion en continu).
Orchestrer des pipelines d'ingestion de données (charges de travail ML basées sur le lot et charges de travail ML basées sur la diffusion en continu).
- Amazon Kinesis
- Amazon Data Firehose
- Amazon EMR
- AWS Glue
- Amazon Managed Service for Apache Flink
Programmer des tâches.

Énoncé de tâche 1.3 : Identifier et mettre en œuvre une solution de transformation des données.

Transformer les données en transit (ETL, AWS Glue, Amazon EMR, AWS Batch).
Gérer les données spécifiques à l'apprentissage automatique à l'aide de MapReduce (par exemple, Apache Hadoop, Apache Spark, Apache Hive).

Domaine 2 : Analyse exploratoire des données

Énoncé de tâche 2.1 : Assainir et préparer les données pour la modélisation.

Identifier et gérer les données manquantes, corrompues et les mots vides.
Formater, normaliser, enrichir et mettre à l'échelle les données.
Déterminer s'il y a suffisamment de données étiquetées.
- Identifier les stratégies d'atténuation.
- Utiliser des outils d'étiquetage des données (par exemple, Amazon Mechanical Turk).

Énoncé de tâche 2.2 : Effectuer l'ingénierie des fonctionnalités.

Identifier et extraire des fonctionnalités à partir d'ensembles de données, y compris à partir de sources de données telles que le texte, la parole, les images et les données publiques.
Analyser et évaluer les concepts d'ingénierie des fonctionnalités (par exemple, la discrétisation, la tokenisation, les valeurs aberrantes, les fonctionnalités synthétiques, le codage one-hot, la réduction de la dimensionnalité des données).

Énoncé de tâche 2.3 : Analyser et visualiser les données pour l'apprentissage automatique.

Créer des graphiques (par exemple, nuages de points, séries chronologiques, histogrammes, diagrammes en boîte).
Interpréter les statistiques descriptives (par exemple, corrélation, statistiques résumées, valeur p).
Effectuer une analyse de cluster (par exemple, hiérarchique, de diagnostic, diagramme en coude, taille du cluster).

Domaine 3 : Modélisation

Énoncé de tâche 3.1 : Formuler des problèmes d'entreprise en tant que problèmes d'apprentissage automatique.

Déterminer quand utiliser et quand ne pas utiliser l'apprentissage automatique.
Connaître la différence entre l'apprentissage supervisé et non supervisé.
Sélectionner parmi la classification, la régression, les prévisions, le clustering, les recommandations et les modèles de base.

Énoncé de tâche 3.2 : Sélectionner le(s) modèle(s) approprié(s) pour un problème d'apprentissage automatique donné.

XGBoost, régression logistique, k-moyennes, régression linéaire, arbres de décision, forêts aléatoires, RNN, CNN, ensemble, transfert d'apprentissage et modèles de langage de grande taille (LLM)
Exprimer l'intuition derrière les modèles.

Énoncé de tâche 3.3 : Former des modèles d'apprentissage automatique.

Diviser les données entre formation et validation (par exemple, validation croisée).
Comprendre les techniques d'optimisation pour l'entraînement ML (par exemple, descente de gradient, fonctions de perte, convergence).
Choisir les ressources de calcul appropriées (par exemple, GPU ou CPU, distribué ou non distribué).
- Choisir les plates-formes de calcul appropriées (Spark ou non Spark).
Mettre à jour et réentraîner les modèles.
- Par lots ou en temps réel/en ligne

Énoncé de tâche 3.4 : Effectuer l'optimisation des hyperparamètres.

Effectuer la régularisation.
- Dropout
- L1/L2
Effectuer la validation croisée.
Initialiser les modèles.
Comprendre l'architecture des réseaux de neurones (couches et nœuds), le taux d'apprentissage et les fonctions d'activation.
Comprendre les modèles basés sur les arbres (nombre d'arbres, nombre de niveaux).
Comprendre les modèles linéaires (taux d'apprentissage).

Énoncé de tâche 3.5 : Évaluer les modèles d'apprentissage automatique.

Éviter le surapprentissage ou le sous-apprentissage.
- Détecter et gérer les biais et la variance.
Évaluer les métriques (par exemple, aire sous la courbe [AUC]-caractéristiques de fonctionnement du récepteur [ROC], précision, rappel, erreur quadratique moyenne [RMSE], score F1).
Interpréter les matrices de confusion.
Effectuer une évaluation hors ligne et en ligne des modèles (test A/B).
Comparer les modèles à l'aide de métriques (par exemple, temps de formation d'un modèle, qualité du modèle, coûts d'ingénierie).
Effectuer une validation croisée.

Domaine 4 : Mise en œuvre et opérations de l'apprentissage automatique

Énoncé de tâche 4.1 : Construire des solutions d'apprentissage automatique pour la performance, la disponibilité, l'évolutivité, la résilience et la tolérance aux pannes.

Journaliser et surveiller les environnements AWS.
- AWS CloudTrail et Amazon CloudWatch
- Construire des solutions de surveillance des erreurs.
Déployer dans plusieurs régions AWS et plusieurs zones de disponibilité.
Créer des AMI et des images master.
Créer des conteneurs Docker.
Déployer des groupes de mise à l'échelle automatique.
Ajuster les ressources (par exemple, instances, IOPS provisionnés, volumes).
Effectuer la répartition de la charge.
Suivre les meilleures pratiques AWS.

Énoncé de tâche 4.2 : Recommander et mettre en œuvre les services et fonctionnalités d'apprentissage automatique appropriés pour un problème donné.

Apprentissage automatique sur AWS (services applicatifs), par exemple :
- Amazon Polly
- Amazon Lex
- Amazon Transcribe
- Amazon Q
Comprendre les quotas de service AWS.
Déterminer quand construire des modèles personnalisés et quand utiliser les algorithmes intégrés d'Amazon SageMaker.
Comprendre l'infrastructure AWS (par exemple, les types d'instances) et les considérations de coût.
- Utiliser des instances Spot pour former des modèles d'apprentissage en profondeur à l'aide d'AWS Batch.

Énoncé de tâche 4.3 : Appliquer les pratiques de sécurité AWS de base aux solutions d'apprentissage automatique.

AWS Identity and Access Management (IAM)
Politiques de compartiment S3
Groupes de sécurité
VPC
Chiffrement et anonymisation

Énoncé de tâche 4.4 : Déployer et opérationnaliser des solutions d'apprentissage automatique.

Exposer des points de terminaison et interagir avec eux.
Comprendre les modèles d'apprentissage automatique.
Effectuer des tests A/B.
Retrainer les pipelines.
Déboguer et résoudre les problèmes des modèles d'apprentissage automatique.
- Détecter et atténuer les baisses de performance.
- Surveiller les performances du modèle.

Annexe

Technologies et concepts susceptibles d'apparaître dans l'examen

La liste suivante contient des technologies et des concepts susceptibles d'apparaître dans l'examen. Cette liste n'est pas exhaustive et est sujette à changement. L'ordre et le placement des éléments dans cette liste n'indiquent pas leur poids ou leur importance relatifs dans l'examen :

Ingestion et collecte
Traitement et ETL
Analyse et visualisation des données

Guide officiel de l'examen MLS-C01