CC

\u516C\u5F0F DEA-C01 \u8A66\u9A13\u30AC\u30A4\u30C9

\u8A66\u9A13\u5F62\u5F0F\u3001\u30C9\u30E1\u30A4\u30F3\u3001\u6E96\u5099\u306E\u30D2\u30F3\u30C8

AWS Certified Data Engineer - Associate (DEA-C01) Exam Guide

Version 1.0 DEA-C01

はじめに

AWS認定データエンジニア - アソシエイト (DEA-C01) 試験は、ベストプラクティスに従ってデータパイプラインを実装し、コストと性能の問題を監視、トラブルシューティング、最適化する候補者の能力を検証するものです。

この試験はまた、以下のタスクを完了する候補者の能力を検証するものです:

  • プログラミングの概念を適用しながら、データを取り込み、変換し、データパイプラインをオーケストレーションする。
  • 最適なデータストアを選択し、データモデルを設計し、データスキーマをカタログ化し、データライフサイクルを管理する。
  • データパイプラインを運用、維持、監視する。データを分析し、データ品質を確保する。
  • 適切な認証、承認、データ暗号化、プライバシー、ガバナンスを実装する。ログを有効にする。

対象候補者の説明

対象候補者は、データエンジニアとしての2-3年相当の経験を持っている必要があります。対象候補者は、データ取り込み、変換、モデリング、セキュリティ、ガバナンス、プライバシー、スキーマ設計、最適なデータストア設計に対する容量、多様性、速度の影響を理解している必要があります。さらに、対象候補者は、AWS サービスの実践経験が1-2年以上ある必要があります。

推奨される一般的なITに関する知識

対象候補者は、以下の一般的なIT知識を持っている必要があります:

  • 取り込みから目的地までのETLパイプラインの設定と保守
  • パイプラインで必要とされる高レベルのプログラミングの概念(言語非依存)
  • Gitコマンドを使用したソース管理
  • データレイクを使用したデータの保管
  • ネットワーキング、ストレージ、コンピューティングの一般的な概念

推奨されるAWSに関する知識

対象候補者は、以下のAWSに関する知識を持っている必要があります:

  • このガイドの「はじめに」セクションに記載されたタスクを実行するためのAWSサービスの使用方法
  • データパイプラインの一部であるすべてのデータの暗号化、ガバナンス、保護、ログ記録のためのAWSサービスの理解
  • サービス間のコスト、性能、機能の違いを理解する能力
  • SQL クエリの構造と、AWSサービス上でのSQL クエリの実行
  • データの分析、データ品質の検証、データの整合性を確保するためのAWSサービスの理解

対象候補者の範疇外のタスク

以下のリストには、対象候補者が行えないことが期待されるタスクが含まれています。このリストは非網羅的です。これらのタスクは、この試験の範囲外です:

  • AIおよびMLタスクの実行
  • プログラミング言語固有の文法の実証
  • データに基づいた業務上の結論の導出

付録に、範囲内のAWSサービスと機能、範囲外のAWSサービスと機能の一覧が記載されています。

試験の内容

回答の種類

この試験には2種類の質問があります:

  • 選択式: 1つの正解と3つの誤りの選択肢から成る
  • 複数選択式: 5つ以上の選択肢から2つ以上の正解を選ぶ

最も適切な回答を1つ以上選んでください。誤った回答は、知識や技術が不十分な候補者が選択する可能性のある、一般的に妥当な回答オプションです。

回答しなかった質問は不正解としてカウントされます。得点には影響ありません。この試験には合計50問の採点対象の質問が含まれています。

採点外の内容

この試験には15問の採点外の質問が含まれています。これらの質問は得点には影響しません。AWSは、これらの採点外の質問の今後の得点対象化を検討するため、候補者のパフォーマンスに関する情報を収集しています。これらの採点外の質問は、試験内で識別されません。

試験結果

AWS認定データエンジニア - アソシエイト (DEA-C01) 試験は合格/不合格の判定です。この試験は、AWSの認証専門家がベストプラクティスとガイドラインに従って設定した最小基準に基づいて採点されます。

試験の結果は100 - 1,000のスケールスコアで報告されます。合格点は720点です。スコアは、全体的な試験の成績と合格/不合格を示します。スケールスコアリングモデルは、難易度が若干異なる複数の試験フォームの成績を均等化するのに役立ちます。

スコア報告には、各セクションの成績分類が含まれている場合があります。この試験は補償型のスコアリングモデルを使用しており、各セクションで合格点を取る必要はありません。全体として合格点を取れば合格となります。

試験の各セクションには特定の重み付けがあり、一部のセクションには他のセクションよりも多くの問題があります。成績分類表には一般的な情報が含まれており、受験者の長所と短所が強調されます。セクションレベルのフィードバックは慎重に解釈する必要があります。

試験範囲

この試験ガイドには、試験の重み付け、出題範囲、タスク記述が含まれています。この試験の完全な内容リストを提供するものではありません。ただし、各タスク記述に関する追加情報が用意されており、試験の準備に役立ちます。

試験の出題範囲と重み付けは以下の通りです:

  • ドメイン1: データ取り込みと変換 (得点の34%)
  • ドメイン2: データストアの管理 (得点の26%)
  • ドメイン3: データの運用とサポート (得点の22%)
  • ドメイン4: データのセキュリティとガバナンス (得点の18%)

ドメイン1: データ取り込みと変換

タスク記述1.1: データ取り込みを実行する

知識:

  • データ取り込みにおけるAWSサービスのスループットとレイテンシの特性
  • データ取り込みパターン (頻度、データ履歴など)
  • ストリーミングデータの取り込み
  • バッチデータの取り込み (スケジュールされた取り込み、イベントドリブンの取り込みなど)
  • データ取り込みパイプラインの再生可能性
  • ステートフルおよびステートレスのデータトランザクション

スキル:

  • ストリーミングソース (Amazon Kinesis、Amazon Managed Streaming for Apache Kafka、Amazon DynamoDB Streams、AWS Database Migration Service、AWS Glue、Amazon Redshift)からデータを読み取る
  • バッチソース (Amazon S3、AWS Glue、Amazon EMR、AWS DMS、Amazon Redshift、AWS Lambda、Amazon AppFlow)からデータを読み取る
  • バッチ取り込みの適切な設定オプションを実装する
  • データ API を使用する
  • Amazon EventBridge、Apache Airflow、時間ベースのスケジュールを使用してスケジューラを設定する
  • イベントトリガー (Amazon S3 Event Notifications、EventBridge) を設定する
  • Amazon Kinesis からLambda関数を呼び出す
  • データソースへの接続を許可するIPアドレスのホワイトリストを作成する
  • スロットル処理と速度制限の克服 (DynamoDB、Amazon RDS、Kinesisなど)
  • ストリーミングデータ配布のファンインとファンアウトの管理

タスク記述1.2: データを変換およびプロセスする

知識:

  • ビジネス要件に基づいたETLパイプラインの作成
  • データのボリューム、速度、多様性 (構造化データ、非構造化データなど)
  • クラウドコンピューティングと分散コンピューティング
  • Apache Sparkを使ってデータを処理する方法
  • 中間データの一時保管場所

スキル:

  • パフォーマンスニーズに合わせたコンテナ使用量の最適化 (Amazon EKS、Amazon ECS)
  • 異なるデータソースに接続する (JDBC、ODBC)
  • 複数のデータソースからデータを統合する
  • コストを最適化しながらデータを処理する
  • 要件に基づきデータ変換サービスを実装する (Amazon EMR、AWS Glue、Lambda、Amazon Redshift)
  • フォーマット間でデータを変換する (CSV から Apache Parquetなど)
  • 一般的な変換の失敗とパフォーマンスの問題をトラブルシューティングおよびデバッグする
  • AWSサービスを使用してデータAPIを作成し、他のシステムにデータを公開する

タスク記述1.3: データパイプラインをオーケストレーションする

知識:

  • 様々なAWSサービスを統合してETLパイプラインを作成する方法
  • イベントドリブンアーキテクチャ
  • スケジュールや依存関係に基づきAWSサービスを設定する方法
  • サーバーレスワークフロー

スキル:

  • オーケストレーションサービスを使用してデータETLパイプラインのワークフローを構築する (Lambda、EventBridge、Amazon Managed Workflows for Apache Airflow、AWS Step Functions、AWS Glueワークフロー)
  • パフォーマンス、可用性、スケーラビリティ、レジリエンシー、フォールトトレランスを備えたデータパイプラインを構築する
  • サーバーレスワークフローを実装および維持する
  • 通知サービスを使用してアラートを送信する (Amazon SNS、Amazon SQS)

タスク記述1.4: プログラミングの概念を適用する

知識:

  • 継続的インテグレーションと継続的デリバリー (CI/CD)(データパイプラインの実装、テスト、デプロイ)
  • データソースクエリやデータ変換に使用するSQL
  • 再現可能なデプロイメントのためのインフラストラクチャとしてのコード (AWS CDK、AWS CloudFormation)
  • 分散コンピューティング
  • データ構造とアルゴリズム (グラフデータ構造、ツリーデータ構造など)
  • SQLクエリの最適化

スキル:

  • データ取り込みと変換のランタイムを短縮するためのコードの最適化
  • 需要に応じたLambda関数の設定
  • データを変換するためのSQLクエリの実行 (Amazon Redshiftのストアドプロシージャなど)
  • データパイプラインの要件を満たすためのSQLクエリの構造化
  • Gitコマンドを使用して、リポジトリの作成、更新、クローン、ブランチなどの操作を行う
  • AWS Serverless Application Model (AWS SAM) を使用してサーバーレスデータパイプライン (Lambdaファンクション、Step Functions、DynamoDBテーブル) をパッケージ化およびデプロイする
  • Lambdaファンクションの内部からストレージボリュームをマウントする

ドメイン2: データストアの管理

タスク記述2.1: データストアを選択する

知識:

  • ストレージプラットフォームとその特性
  • 特定のパフォーマンス要件に合わせたストレージサービスと設定
  • データストレージ形式 (.csv、.txt、Parquet など)
  • データ移行要件に合わせたデータストレージの選択
  • 特定のアクセスパターンに適したストレージソリューションの判断方法
  • データへのアクセスを防ぐためのロック管理 (Amazon Redshift、Amazon RDSなど)

スキル:

  • コストとパフォーマンスの要件に合わせた適切なストレージサービスの実装 (Amazon Redshift、Amazon EMR、AWS Lake Formation、Amazon RDS、DynamoDB、Amazon Kinesis Data Streams、Amazon MSK)
  • 特定のアクセスパターンと要件に合わせた適切なストレージサービスの設定 (Amazon Redshift、Amazon EMR、Lake Formation、Amazon RDS、DynamoDB)
  • 適切なユースケースにストレージサービスを適用する (Amazon S3など)
  • データ処理システムにマイグレーションツールを組み込む (AWS Transfer Family)
  • データ移行または遠隔アクセス方式の実装 (Amazon Redshift フェデレーテッドクエリ、Amazon Redshift マテリアライズドビュー、Amazon Redshift Spectrum)

タスク記述2.2: データカタログシステムを理解する

知識:

  • データカタログの作成方法
  • 要件に基づくデータの分類
  • メタデータとデータカタログの構成要素

スキル:

  • データカタログを使用してデータの供給元から消費する
  • データカタログを構築および参照する (AWS Glue Data Catalog、Apache Hive metastore)
  • クローラーを使用してスキーマを検出し、データカタログに反映する
  • パーティションをデータカタログと同期する
  • カタログ用の新しい供給元または消費先の接続を作成する (AWS Glueなど)

タスク記述2.3: データのライフサイクルを管理する

知識:

  • ホットデータとコールドデータの要件に適したストレージソリューション
  • ストレージコストの最適化に関する用途に応じたデータ管理
  • ビジネスと法的要件に沿ってデータを削除する方法
  • データ保持ポリシーとアーカイブ戦略
  • 適切なレジリエンシーと可用性を備えたデータの保護

スキル:

  • Amazon S3とAmazon Redshiftの間でデータのロードおよびアンロード操作を実行する
  • S3ライフサイクルポリシーを使ってS3データのストレージティアを変更する
  • S3ライフサイクルポリシーを使ってデータの有効期限を管理する
  • S3バージョニングとDynamoDB TTLを管理する

タスク記述2.4: データモデルとスキーマの進化を設計する

知識:

  • データモデリングの概念
  • データ系譜を使用して、正確で信頼できるデータを確保する方法
  • インデックス作成、パーティショニング戦略、圧縮、その他のデータ最適化手法のベストプラクティス
  • 構造化、半構造化、非構造化データのモデリング方法
  • スキーマの進化手法

スキル:

  • Amazon Redshift、DynamoDB、Lake Formationのスキーマを設計する
  • データ特性の変化に対応する
  • スキーマ変換を実行する (AWS Schema Conversion Tool、AWS DMS Schema Conversionを使用など)
  • AWS ツール (Amazon SageMaker ML Lineage Tracking など) を使用してデータ系譜を確立する

ドメイン3: データの運用とサポート

タスク記述3.1: AWSサービスを使用してデータ処理を自動化する

知識:

  • 繰り返しのビジネス成果を維持およびトラブルシューティングするためのデータ処理
  • データ処理のためのAPI呼び出し
  • スクリプト対応のサービス (Amazon EMR、Amazon Redshift、AWS Glueなど)

スキル:

  • データパイプラインをオーケストレーションする (Amazon MWAA、Step Functions)
  • Amazon managed workflowsのトラブルシューティング
  • コードからAmazon機能にアクセスするためのSDKの呼び出し
  • AWSサービスの機能を使ってデータを処理する (Amazon EMR、Amazon Redshift、AWS Glue)
  • データ API を消費およびメンテナンスする
  • データ変換の準備 (AWS Glue DataBrew)
  • データ照会 (Amazon Athena)
  • データ処理の自動化にLambdaを使用する
  • イベントとスケジューラの管理 (EventBridge)

タスク記述3.2: AWSサービスを使用してデータを分析する

知識:

  • プロビジョンドサービスとサーバーレスサービスのトレードオフ
  • SQL クエリ (複数の修飾子や結合句を含む SELECT ステートメントなど)
  • データを視覚化する方法
  • データクレンジング手法の適用時期と方法
  • データの集計、移動平均、グループ化、ピボット

スキル:

  • AWSサービスとツールを使ってデータを視覚化する (AWS Glue DataBrew、Amazon QuickSight)
  • データを検証およびクレンジングする (Lambda、Athena、QuickSight、Jupyter Notebooks、Amazon SageMaker Data Wrangler)
  • Athenaを使ってデータを照会したり、ビューを作成したりする
  • Apache Sparkを使ったAthenaノートブックでデータを探索する

タスク記述3.3: データパイプラインの保守と監視を行う

知識:

  • アプリケーションデータのログ記録方法
  • パフォーマンスチューニングのベストプラクティス
  • AWSサービスへのアクセスを記録する方法
  • Amazon Macie、AWS CloudTrail、Amazon CloudWatch

スキル:

  • 監査用のログを抽出する
  • 監査とトレーサビリティを facilite するためのログ記録と監視ソリューションを展開する
  • 監視中に通知サービスを使用してアラートを送信する
  • パフォーマンスの問題をトラブルシューティングする
  • CloudTrailを使ってAPI呼び出しを追跡する
  • パイプラインのトラブルシューティングとメンテナンス (AWS Glue、Amazon EMR)
  • CloudWatch Logsを使ってアプリケーションデータを記録する (設定と自動化に重点を置く)
  • AWSサービス (Athena、Amazon EMR、Amazon OpenSearch Service、CloudWatch Logs Insights、ビッグデータアプリケーションログなど) でログを分析する

タスク記述3.4: データ品質を確保する

知識:

  • データサンプリング手法
  • データスキューメカニズムの実装
  • データの検証 (完全性、整合性、正確性、整合性)
  • データプロファイリング

スキル:

  • データ処理中にデータ品質チェックを実行する (空フィールドのチェックなど)
  • データ品質ルールを定義する (AWS Glue DataBrowseなど)
  • データの整合性を調査する (AWS Glue DataBrowseなど)

ドメイン4: データのセキュリティとガバナンス

タスク記述4.1: 認証メカニズムを適用する

知識:

  • VPCセキュリティネットワークの概念
  • 管理サービスと非管理サービスの違い
  • 認証方式 (パスワードベース、証明書ベース、ロールベース)
  • 管理ポリシーとカスタマー管理ポリシーの違い

スキル:

  • VPCセキュリティグループを更新する
  • IAMグループ、ロール、エンドポイント、サービスを作成および更新する
  • パスワード管理用の資格情報を作成および更新する (Secrets Managerなど)
  • アクセス用にIAMロールを設定する (Lambda、Amazon API Gateway、AWS CLI、CloudFormationなど)
  • サービス、エンドポイント、ロールにIAMポリシーを適用する (S3 Access Points、AWS PrivateLinkなど)

タスク記述4.2: 承認メカニズムを適用する

知識:

  • 承認方式 (ロールベース、ポリシーベース、タグベース、属性ベース)
  • AWSセキュリティにおける最小特権の原則
  • ロールベースアクセス制御と期待されるアクセスパターン
  • サービス間でデータを無断アクセスから保護する方法

スキル:

  • 管理ポリシーが要件を満たさない場合にカスタムIAMポリシーを作成する
  • アプリケーションおよびデータベースの資格情報を保存する (Secrets Manager、AWS Systems Manager Parameter Store)
  • データベースのユーザー、グループ、ロールにアクセスと権限を付与する (Amazon Redshiftの場合など)
  • Lake Formationを通じてアクセス許可を管理する (Amazon Redshift、Amazon EMR、Athena、Amazon S3)

タスク記述4.3: データの暗号化とマスキングを確保する

知識:

  • AWSのデータ分析サービス (Amazon Redshift、Amazon EMR、AWS Glue) で利用可能なデータ暗号化オプション
  • クライアントサイドの暗号化とサーバーサイドの暗号化の違い
  • 機密データの保護
  • データの匿名化、マスキング、鍵のソルト

スキル:

  • コンプライアンス法や企業ポリシーに従ってデータマスキングと匿名化を適用する
  • 暗号化/復号化にKMSを使用する
  • アカウント間で暗号化を設定する
  • データ転送中の暗号化を有効にする

タスク記述4.4: 監査用のログを準備する

知識:

  • アプリケーションデータのログ記録方法
  • AWSサービスへのアクセスを記録する方法
  • 一元化されたAWSのログ

スキル:

  • CloudTrailを使ってAPI呼び出しを追跡する
  • CloudWatch Logsでアプリケーションログを保存する
  • AWS CloudTrail Lakeを使って一元化されたログクエリを行う
  • AWSサービス (Athena、CloudWatch Logs Insights、Amazon OpenSearch Service) でログを分析する
  • 大量のログデータの場合、各種AWSサービスを統合してログを取る (Amazon EMRなど)

タスク記述4.5: データのプライバシーとガバナンスを理解する

知識:

  • 個人を特定できる情報 (PII) の保護方法
  • データソブリン

スキル:

  • データ共有のアクセス権限を付与する (Amazon Redshiftのデータ共有など)
  • PII識別を実装する (Lake Formationを使ったMacieなど)
  • 許可されていないAWSリージョンへのバックアップやレプリケーションを防ぐためのデータプライバシー戦略を実装する
  • アカウントで発生した設定変更を管理する (AWS Configなど)

付録

範囲内のAWSサービスと機能

以下のリストには、この試験の範囲内のAWSサービスと機能が含まれています。このリストは非網羅的であり、変更される可能性があります。AWSオファリングは、オファリングの主な機能に合わせてカテゴリ分けされています:

Analytics:

  • Amazon Athena
  • Amazon EMR
  • AWS Glue
  • AWS Glue DataBrew
  • AWS Lake Formation
  • Amazon Kinesis Data Firehose
  • Amazon Kinesis Data Streams
  • Amazon Managed Service for Apache Flink
  • Amazon Managed Streaming for Apache Kafka (Amazon MSK)
  • Amazon OpenSearch Service
  • Amazon QuickSight

Application Integration:

  • Amazon AppFlow
  • Amazon EventBridge
  • Amazon Managed Workflows for Apache Airflow (Amazon MWAA)
  • Amazon Simple Notification Service (Amazon SNS)
  • Amazon Simple Queue Service (Amazon SQS)
  • AWS Step Functions

Cloud Financial Management:

  • AWS Budgets
  • AWS Cost Explorer

Compute:

  • AWS Batch
  • Amazon EC2
  • AWS Lambda
  • AWS Serverless Application Model (AWS SAM)

Containers:

  • Amazon Elastic Container Registry (Amazon ECR)
  • Amazon Elastic Container Service (Amazon ECS)
  • Amazon Elastic Kubernetes Service (Amazon EKS)

Database:

  • Amazon DocumentDB (with MongoDB compatibility)
  • Amazon DynamoDB
  • Amazon Keyspaces (for Apache Cassandra)
  • Amazon MemoryDB for Redis
  • Amazon Neptune
  • Amazon RDS
  • Amazon Redshift

Developer Tools:

  • AWS CLI
  • AWS Cloud9
  • AWS Cloud Development Kit (AWS CDK)
  • AWS CodeBuild
  • AWS CodeCommit
  • AWS CodeDeploy
  • AWS CodePipeline

Frontend Web and Mobile:

  • Amazon API Gateway

Machine Learning:

  • Amazon SageMaker

Management and Governance:

  • AWS CloudFormation
  • AWS CloudTrail
  • Amazon CloudWatch
  • Amazon CloudWatch Logs
  • AWS Config
  • Amazon Managed Grafana
  • AWS Systems Manager
  • AWS Well-Architected Tool

Migration and Transfer:

  • AWS Application Discovery Service
  • AWS Application Migration Service
  • AWS Database Migration Service (AWS DMS)
  • AWS DataSync
  • AWS Schema Conversion Tool (AWS SCT)
  • AWS Snow Family
  • AWS Transfer Family

Networking and Content Delivery:

  • Amazon CloudFront
  • AWS PrivateLink
  • Amazon Route 53
  • Amazon VPC

Security, Identity, and Compliance:

  • AWS Identity and Access Management (IAM)
  • AWS Key Management Service (AWS KMS)
  • Amazon Macie
  • AWS Secrets Manager
  • AWS Shield
  • AWS WAF

Storage:

  • AWS Backup
  • Amazon Elastic Block Store (Amazon EBS)
  • Amazon Elastic File System (Amazon EFS)
  • Amazon S3
  • Amazon S3 Glacier

範囲外のAWSサービスと機能

以下のリストには、この試験の範囲外のAWSサービスと機能が含まれています。このリストは非網羅的であり、変更される可能性があります。受験対象ジョブロールとまったく無関係なAWSオファリングは、このリストから除外されています:

Analytics:

  • Amazon FinSpace

Business Applications:

  • Alexa for Business
  • Amazon Chime
  • Amazon Connect
  • Amazon Honeycode
  • AWS IQ
  • Amazon WorkDocs
  • Amazon WorkMail

Compute:

  • AWS App Runner
  • AWS Elastic Beanstalk
  • Amazon Lightsail
  • AWS Outposts
  • AWS Serverless Application Repository

Containers:

  • Red Hat OpenShift Service on AWS (ROSA)

Database:

  • Amazon Timestream

Developer Tools:

  • AWS Fault Injection Simulator (AWS FIS)
  • AWS X-Ray

Frontend Web and Mobile:

  • AWS Amplify
  • AWS AppSync
  • AWS Device Farm
  • Amazon Location Service
  • Amazon Pinpoint
  • Amazon Simple Email Service (Amazon SES)

Internet of Things (IoT):

  • FreeRTOS
  • AWS IoT 1-Click
  • AWS IoT Device Defender
  • AWS IoT Device Management
  • AWS IoT Events
  • AWS IoT FleetWise
  • AWS IoT RoboRunner
  • AWS IoT SiteWise
  • AWS IoT TwinMaker

Machine Learning: