AWS認定機械学習 - スペシャリティ (MLS-C01) 試験ガイド

はじめに

AWS認定機械学習 - スペシャリティ (MLS-C01)試験は、人工知能/機械学習(AI/ML)の開発やデータサイエンスの役割を担う人を対象としています。この試験は、AWS Cloudでのビジネスの問題を解決するためのML解決策の設計、構築、展開、最適化、トレーニング、調整、メンテナンスを行う能力を評価するものです。

この試験はさらに、以下のタスクを完了する能力を評価するものです:

特定のビジネスの問題に対して適切なMLアプローチを選択し、根拠を示す。
MLソリューションを実装するために適切なAWSサービスを特定する。
拡張性、コスト最適化、信頼性、セキュリティを備えたMLソリューションを設計し、実装する。

対象となる受験者像

対象となる受験者は、AWS CloudでのML又は深層学習のワークロードの開発、設計、運用に2年以上の経験を持っている必要があります。

推奨されるAWSの知識

対象となる受験者は、以下のAWSの知識を持っている必要があります:

基本的なML アルゴリズムの直観的な理解
基本的なハイパーパラメーター最適化の経験
MLおよび深層学習フレームワークの経験
モデルトレーニングのベストプラクティスの理解
展開のベストプラクティスの理解
運用のベストプラクティスの理解

対象となる受験者の範囲外の知識

以下のリストには、対象となる受験者が持っている必要のない知識が含まれています。このリストは網羅的ではありません。以下の分野の知識は、この試験の範囲外です:

複雑なアルゴリズム開発
複雑なハイパーパラメーター最適化
高度な数学的証明と計算
高度なネットワークおよびネットワーク設計
高度なデータベース、セキュリティ、DevOpsの概念
Amazon EMRのDevOpsタスク

付録では、試験に出題される可能性のある技術と概念のリスト、対象となるAWSサービスと機能のリスト、範囲外のAWSサービスと機能のリストを参照してください。

試験内容

回答形式

この試験には2種類の問題があります:

多肢選択: 1つの正解と3つの誤答(ディストラクター)があります
複数の回答: 5つ以上の回答オプションから2つ以上の正解があります

最も適切な回答を1つ以上選択してください。ディストラクターは、知識や技術が不十分な受験者が選択する可能性のある誤答です。ディストラクターは一般的に、内容分野に合致する合理的な回答となっています。

未回答の問題は誤答として扱われます。得点に影響はありませんが、推測して回答することをおすすめします。この試験には得点に影響する50の問題が含まれています。

得点対象外の問題

この試験には得点対象外の15の問題が含まれています。これらの問題の成績は得点に反映されません。AWSは、これらの未得点問題の性能を評価し、将来の得点対象問題として使用することを検討しています。これらの未得点問題は試験では識別されません。

試験結果

AWS認定機械学習 - スペシャリティ (MLS-C01)試験の結果は合格または不合格のみで示されます。試験は、AWSprofessionalsが認証業界のベストプラクティスとガイドラインに従って設定した最低基準に基づいて採点されます。

試験の結果は100-1,000のスケール化されたスコアで報告されます。合格点は750点です。あなたのスコアは、全体的な試験の成績と合格したかどうかを示します。スケール化されたスコアリングモデルは、わずかに難易度の異なる複数の試験フォームの得点を等化するのに役立ちます。

あなたのスコア報告書には、各セクションレベルの成績分類表が含まれている可能性があります。この試験は補償的なスコアリングモデルを使用しているため、各セクションで合格点を取る必要はありません。全体の試験に合格すれば十分です。

試験の各セクションには特定の重みづけがあるため、一部のセクションには他のセクションよりも多くの問題があります。成績分類表には、あなたの長所と短所を示す一般的な情報が含まれています。セクションレベルのフィードバックを解釈する際は注意が必要です。

試験内容の概要

この試験ガイドには、試験の重みづけ、内容領域、タスク陳述が含まれています。このガイドは、試験の内容の包括的なリストを提供するものではありません。ただし、各タスク陳述に関する追加の背景情報が用意されているので、試験の準備に役立ててください。

この試験には以下の内容領域と重みづけがあります:

領域 1: データエンジニアリング (得点対象の20%)
領域 2: 探索的データ分析 (得点対象の24%)
領域 3: モデリング (得点対象の36%)
領域 4: 機械学習の実装と運用 (得点対象の20%)

領域 1: データエンジニアリング

タスク陳述 1.1: MLのためのデータリポジトリを作成する。

データソースを特定する(コンテンツと場所、ユーザーデータなどのプライマリソース)。
ストレージメディアを判断する(データベース、Amazon S3、Amazon Elastic File System [Amazon EFS]、Amazon Elastic Block Store [Amazon EBS] など)。

タスク陳述 1.2: データ取り込みソリューションを特定し、実装する。

データジョブのスタイルとタイプを特定する(バッチ読み込み、ストリーミングなど)。
- Amazon Kinesis
- Amazon Data Firehose
- Amazon EMR
- AWS Glue
- Amazon Managed Service for Apache Flink
データ取り込みパイプラインをオーケストレーション(バッチベースのMLワークロードおよびストリーミングベースのMLワークロード)。
ジョブをスケジュールする。

タスク陳述 1.3: データ変換ソリューションを特定し、実装する。

データ変換処理(ETL、AWS Glue、Amazon EMR、AWS Batch)。
MapReduceを使ってMLに特化したデータを処理する(Apache Hadoop、Apache Spark、Apache Hiveなど)。

領域 2: 探索的データ分析

タスク陳述 2.1: モデリングのためにデータを正規化し、準備する。

欠損データ、破損データ、ストップワードを特定し、処理する。
データを整形、正規化、増強、スケーリングする。
ラベル付きデータが十分にあるかどうかを判断する。
- 緩和策を特定する。
- データラベリングツール(Amazon Mechanical Turkなど)を使用する。

タスク陳述 2.2: 特徴量エンジニアリングを実行する。

データセットから特徴を識別・抽出する(テキスト、音声、画像、公開データセットなどのデータソースから)。
特徴量エンジニアリングの概念を分析・評価する(ビニング、トークン化、外れ値、合成特徴量、one-hot エンコーディング、データの次元削減など)。

タスク陳述 2.3: MLのためにデータを分析し、可視化する。

グラフを作成する(散布図、時系列、ヒストグラム、箱ひげ図など)。
記述統計を解釈する(相関、要約統計、p値など)。
クラスター分析を実行する(階層的、診断、エルボープロット、クラスターサイズなど)。

領域 3: モデリング

タスク陳述 3.1: ビジネスの問題をMLの問題としてフレームワーク化する。

MLを使うべきタイミングとそうでないタイミングを判断する。
教師あり学習と教師なし学習の違いを知る。
分類、回帰、予測、クラスタリング、推奨、基礎モデルから選択する。

タスク陳述 3.2: 特定のMLの問題に適したモデルを選択する。

XGBoost、ロジスティック回帰、k-means、線形回帰、決定木、ランダムフォレスト、RNN、CNN、アンサンブル、転移学習、大規模言語モデル(LLM)
モデルの直観を表現する。

タスク陳述 3.3: MLモデルをトレーニングする。

トレーニングとバリデーションのためにデータを分割する(交差検証など)。
ML トレーニングの最適化手法を理解する(勾配降下法、損失関数、収束など)。
適切なコンピューティングリソースを選択する(GPU、CPU、分散/非分散)。
- 適切なコンピューティングプラットフォームを選択する(Spark製品、非Spark製品)。
モデルを更新し、再トレーニングする。
- バッチ処理または実時間/オンラインで

タスク陳述 3.4: ハイパーパラメーター最適化を実行する。

正規化を実行する。
- ドロップアウト
- L1/L2
交差検証を実行する。
モデルを初期化する。
ニューラルネットワークのアーキテクチャ(層とノード)、学習率、活性化関数を理解する。
木ベースのモデル(ツリー数、ツリーの深さ)を理解する。
線形モデル(学習率)を理解する。

タスク陳述 3.5: MLモデルを評価する。

オーバーフィッティングやアンダーフィッティングを回避する。
- バイアスとバリアンスを検出し、処理する。
メトリクスを評価する(AUC-ROC、精度、再現率、RMSE、F1スコアなど)。
混同行列を解釈する。
オフラインおよびオンラインのモデル評価(A/Bテスト)を実行する。
メトリクスを使ってモデルを比較する(モデルのトレーニング時間、モデルの品質、エンジニアリングコストなど)。
交差検証を実行する。

領域 4: 機械学習の実装と運用

タスク陳述 4.1: パフォーマンス、可用性、スケーラビリティ、耐障害性、フォールトトレランスを備えたMLソリューションを構築する。

AWSの環境をログ記録し、監視する。
- AWS CloudTrailとAmazon CloudWatch
- エラー監視ソリューションを構築する。
複数のAWSリージョンと可用性ゾーンにデプロイする。
AMIとゴールデンイメージを作成する。
Dockerコンテナを作成する。
Auto Scalingグループをデプロイする。
リソースを最適なサイズに変更する(インスタンス、プロビジョンドIOPS、ボリュームなど)。
ロードバランシングを実行する。
AWSのベストプラクティスに従う。

タスク陳述 4.2: 特定の問題に対して適切なMLサービスと機能を推奨し、実装する。

AWSのML(アプリケーションサービス)
- Amazon Polly
- Amazon Lex
- Amazon Transcribe
- Amazon Q
AWSサービスのクォータを理解する。
カスタムモデルを構築するタイミングとAmazon SageMakerの組み込みアルゴリズムを使うタイミングを判断する。
AWSのインフラストラクチャ(インスタンスタイプ)とコストの考慮事項を理解する。
- AWS Batchを使って深層学習モデルをトレーニングするためにスポットインスタンスを使用する。

タスク陳述 4.3: MLソリューションにAWSのセキュリティプラクティスを適用する。

AWS Identity and Access Management (IAM)
S3バケットポリシー
セキュリティグループ
VPC
暗号化と匿名化

タスク陳述 4.4: MLソリューションをデプロイし、運用する。

エンドポイントを公開し、それらと対話する。
MLモデルを理解する。
A/Bテストを実行する。
再トレーニングパイプラインを実行する。
MLモデルのデバッグとトラブルシューティングを行う。
- パフォーマンスの低下を検出し、軽減する。
- モデルのパフォーマンスを監視する。

付録

試験に出題される可能性のある技術と概念

以下のリストには、試験に出題される可能性のある技術と概念が含まれています。このリストは網羅的ではなく、変更される可能性があります。このリストの順序と配置は、試験における相対的な重みや重要性を示すものではありません:

取り込みと収集
処理とETL
データ分析と可視化
モデルのトレーニング
モデルの展開と推論
MLの運用化
AWSのMLアプリケーションサービス
MLに関連する言語(Python、Java、Scala、R、SQLなど)
ノートブックと統合開発環境 (IDE)

対象となるAWSサービスと機能

以下のリストには、この試験の対象となるAWSサービスと機能が含まれています。このリストは網羅的ではなく、変更される可能性があります。AWSのオファリングは、それらのプライマリ機能に合わせてカテゴリ化されています:

アナリティクス:

Amazon Athena
Amazon Data Firehose
Amazon EMR
AWS Glue
Amazon Kinesis
Amazon Kinesis Data Streams
AWS Lake Formation
Amazon Managed Service for Apache Flink
Amazon OpenSearch Service
Amazon QuickSight

コンピューティング:

AWS Batch
Amazon EC2
AWS Lambda

コンテナ:

Amazon Elastic Container Registry (Amazon ECR)
Amazon Elastic Container Service (Amazon ECS)
Amazon Elastic Kubernetes Service (Amazon EKS)
AWS Fargate

データベース:

Amazon Redshift

モノのインターネット:

AWS IoT Greengrass

機械学習:

Amazon Bedrock
Amazon Comprehend
AWS Deep Learning AMIs (DLAMI)
Amazon Forecast
Amazon Fraud Detector
Amazon Lex
Amazon Kendra
Amazon Mechanical Turk
Amazon Polly
Amazon Q
Amazon Rekognition
Amazon SageMaker
Amazon Textract
Amazon Transcribe
Amazon Translate

管理とガバナンス:

AWS CloudTrail
Amazon CloudWatch

ネットワークとコンテンツ配信:

Amazon VPC

セキュリティ、ID、コンプライアンス:

AWS Identity and Access Management (IAM)

ストレージ:

Amazon Elastic Block Store (Amazon EBS)
Amazon Elastic File System (Amazon EFS)
Amazon FSx
Amazon S3

対象外のAWSサービスと機能

以下のリストには、この試験の対象外となるAWSサービスと機能が含まれています。このリストは網羅的ではなく、変更される可能性があります。対象となる職務ロールとまったく関係のないAWSのオファリングは、このリストから除外されています:

アナリティクス:

AWS Data Pipeline

機械学習:

AWS DeepRacer
Amazon Machine Learning (Amazon ML)

\u516C\u5F0F MLS-C01 \u8A66\u9A13\u30AC\u30A4\u30C9

AWS認定機械学習 - スペシャリティ (MLS-C01) 試験ガイド

はじめに

対象となる受験者像

推奨されるAWSの知識

対象となる受験者の範囲外の知識

試験内容

回答形式

得点対象外の問題

試験結果

試験内容の概要

領域 1: データエンジニアリング

タスク陳述 1.1: MLのためのデータリポジトリを作成する。

タスク陳述 1.2: データ取り込みソリューションを特定し、実装する。

タスク陳述 1.3: データ変換ソリューションを特定し、実装する。

領域 2: 探索的データ分析

タスク陳述 2.1: モデリングのためにデータを正規化し、準備する。

タスク陳述 2.2: 特徴量エンジニアリングを実行する。

タスク陳述 2.3: MLのためにデータを分析し、可視化する。

領域 3: モデリング

タスク陳述 3.1: ビジネスの問題をMLの問題としてフレームワーク化する。

タスク陳述 3.2: 特定のMLの問題に適したモデルを選択する。

タスク陳述 3.3: MLモデルをトレーニングする。

タスク陳述 3.4: ハイパーパラメーター最適化を実行する。

タスク陳述 3.5: MLモデルを評価する。

領域 4: 機械学習の実装と運用

タスク陳述 4.1: パフォーマンス、可用性、スケーラビリティ、耐障害性、フォールトトレランスを備えたMLソリューションを構築する。

タスク陳述 4.2: 特定の問題に対して適切なMLサービスと機能を推奨し、実装する。

タスク陳述 4.3: MLソリューションにAWSのセキュリティプラクティスを適用する。

タスク陳述 4.4: MLソリューションをデプロイし、運用する。

付録

試験に出題される可能性のある技術と概念

対象となるAWSサービスと機能

アナリティクス:

コンピューティング:

コンテナ:

データベース:

モノのインターネット:

機械学習:

管理とガバナンス:

ネットワークとコンテンツ配信:

セキュリティ、ID、コンプライアンス:

ストレージ:

対象外のAWSサービスと機能

アナリティクス:

機械学習: