AWS 认证数据工程师 - 助理 (DEA-C01) 考试指南
版本 1.0 DEA-C01
简介
AWS 认证数据工程师 - 助理 (DEA-C01) 考试验证了考生实施数据管道并根据最佳实践监控、排除故障和优化成本及性能问题的能力。
该考试还验证了考生完成以下任务的能力:
- 摄取和转换数据,并应用编程概念编排数据管道。
- 选择最优数据存储,设计数据模型,编目数据架构,管理数据生命周期。
- 操作化、维护和监控数据管道。分析数据并确保数据质量。
- 实施适当的身份验证、授权、数据加密、隐私性和治理。启用日志。
目标考生描述
目标考生应具有相当于 2-3 年数据工程经验。目标考生应了解数据规模、类型和速度对数据摄取、转换、建模、安全、治理、隐私、架构设计和最佳数据存储设计的影响。此外,目标考生至少应有 1-2 年 AWS 服务的实践经验。
推荐的一般 IT 知识
目标考生应具有以下一般 IT 知识:
- 从摄取到目的地设置和维护提取、转换和加载 (ETL) 管道
- 根据管道要求应用高级但独立于语言的编程概念
- 如何使用 Git 命令进行版本控制
- 如何使用数据湖存储数据
- 网络、存储和计算的一般概念
推荐的 AWS 知识
目标考生应具有以下 AWS 知识:
- 如何使用 AWS 服务完成本考试指南"简介"部分列出的任务
- 了解用于数据管道的所有数据加密、治理、保护和日志记录的 AWS 服务
- 比较 AWS 服务以了解成本、性能和功能差异
- 如何构建 SQL 查询以及如何在 AWS 服务上运行 SQL 查询
- 了解如何使用 AWS 服务分析数据、验证数据质量和确保数据一致性
目标考生不在范围内的工作任务
以下列表包含目标考生预计无法执行的工作任务。此列表并非详尽无遗。这些任务不在考试范围内:
- 执行人工智能和机器学习 (AI/ML) 任务。
- 展示特定编程语言语法的知识。
- 根据数据做出业务结论。
请参阅附录以获取范围内 AWS 服务和功能以及范围外 AWS 服务和功能的列表。
考试内容
回答类型
考试有两种类型的问题:
- 多项选择: 有一个正确答案和三个错误答案(干扰项)
- 多项回答: 有两个或两个以上正确答案,从五个或更多个选项中选择
选择一个或多个最能完成陈述或回答问题的响应。干扰项或错误答案是具有一定合理性的选项,可能会被知识或技能不足的考生选择。干扰项通常与考试内容领域相符。
未作答的问题会被算作错误;猜测不会受到惩罚。考试包括 50 个影响成绩的问题。
不计分内容
考试包括 15 个不影响成绩的未计分问题。AWS 收集这些未计分问题的表现信息,以评估这些问题是否可用作未来计分题。这些未计分问题在考试中不会被识别。
考试结果
AWS 认证数据工程师 - 助理 (DEA-C01) 考试采用通过/不通过制度。该考试是根据 AWS 专业人士遵循认证行业最佳实践和指南设置的最低标准进行评分的。
您的考试成绩以 100-1,000 的标准分数形式报告。及格分数为 720 分。您的得分显示了您在整个考试中的表现以及是否通过。标准化评分模型有助于在可能具有略微不同难度级别的多个考试形式之间等化分数。
您的成绩报告可能包含各部分的表现分类。该考试采用补偿性评分模型,这意味着您无需在每个部分都及格。您只需要通过整个考试即可。
考试的每个部分都有特定的权重,因此某些部分的问题数量多于其他部分。该表格包含概括性信息,可突出显示您的优势和弱点。在解释部分级反馈时请谨慎。
内容大纲
本考试指南包括考试的权重、内容域和任务陈述。本指南并未提供考试内容的全面列表。但是,可以获取每项任务陈述的其他背景信息,以帮助您为考试做准备。
该考试包括以下内容域和权重:
- 域 1: 数据摄取和转换 (34% 的计分内容)
- 域 2: 数据存储管理 (26% 的计分内容)
- 域 3: 数据运维和支持 (22% 的计分内容)
- 域 4: 数据安全和治理 (18% 的计分内容)
域 1: 数据摄取和转换
任务陈述 1.1: 执行数据摄取。
知识:
- AWS 摄取数据的吞吐量和延迟特性
- 数据摄取模式(如频率和数据历史记录)
- 流式数据摄取
- 批量数据摄取(如定期摄取、事件驱动摄取)
- 数据摄取管道的可重放性
- 有状态和无状态数据事务
技能:
- 从流式源(如 Amazon Kinesis、Amazon Managed Streaming for Apache Kafka (Amazon MSK)、Amazon DynamoDB Streams、AWS Database Migration Service (AWS DMS)、AWS Glue、Amazon Redshift)读取数据
- 从批量源(如 Amazon S3、AWS Glue、Amazon EMR、AWS DMS、Amazon Redshift、AWS Lambda、Amazon AppFlow)读取数据
- 实施批量摄取的适当配置选项
- 使用数据 API
- 使用 Amazon EventBridge、Apache Airflow 或基于时间的作业和爬虫计划程序设置计划程序
- 设置事件触发器(如 Amazon S3 事件通知、EventBridge)
- 从 Amazon Kinesis 调用 Lambda 函数
- 创建 IP 地址允许列表以允许连接到数据源
- 实施节流并克服速率限制(如 DynamoDB、Amazon RDS、Kinesis)
- 管理流式数据分发的扇入和扇出
任务陈述 1.2: 转换和处理数据。
知识:
- 根据业务需求创建 ETL 管道
- 数据的规模、速度和类型(如结构化数据、非结构化数据)
- 云计算和分布式计算
- 如何使用 Apache Spark 处理数据
- 中间数据临时存储位置
技能:
- 优化容器使用以满足性能需求(如 Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Container Service (Amazon ECS))
- 连接到不同的数据源(如 Java 数据库连接 (JDBC)、开放数据库连接 (ODBC))
- 集成来自多个源的数据
- 在处理数据时优化成本
- 根据需求实施数据转换服务(如 Amazon EMR、AWS Glue、Lambda、Amazon Redshift)
- 在格式之间转换数据(如从 .csv 到 Apache Parquet)
- 排查和调试常见的转换失败和性能问题
- 创建数据 API 以使用 AWS 服务使其他系统可访问数据
任务陈述 1.3: 编排数据管道。
知识:
- 如何集成各种 AWS 服务来创建 ETL 管道
- 事件驱动体系结构
- 如何根据计划或依赖关系配置 AWS 服务以用于数据管道
- 无服务器工作流
技能:
- 使用编排服务构建 ETL 管道工作流(如 Lambda、EventBridge、Amazon Managed Workflows for Apache Airflow (Amazon MWAA)、AWS Step Functions、AWS Glue 工作流)
- 构建针对性能、可用性、可扩展性、弹性和容错能力的数据管道
- 实施和维护无服务器工作流
- 使用通知服务发送警报(如 Amazon Simple Notification Service (Amazon SNS)、Amazon Simple Queue Service (Amazon SQS))
任务陈述 1.4: 应用编程概念。
知识:
- 持续集成和持续交付 (CI/CD)(数据管道的实施、测试和部署)
- SQL 查询(用于数据源查询和数据转换)
- 用于可重复部署的基础设施即代码 (IaC)(如 AWS Cloud Development Kit (AWS CDK)、AWS CloudFormation)
- 分布式计算
- 数据结构和算法(如图形数据结构和树形数据结构)
- SQL 查询优化
技能:
- 优化代码以减少数据摄取和转换的运行时间
- 配置 Lambda 函数以满足并发性和性能需求
- 执行 SQL 查询以转换数据(如 Amazon Redshift 存储过程)
- 构建满足数据管道要求的 SQL 查询
- 使用 Git 命令执行诸如创建、更新、克隆和分支存储库等操作
- 使用 AWS Serverless Application Model (AWS SAM) 打包和部署无服务器数据管道(如 Lambda 函数、Step Functions、DynamoDB 表)
- 从 Lambda 函数内挂载存储卷
域 2: 数据存储管理
任务陈述 2.1: 选择数据存储。
知识:
- 存储平台及其特征
- 针对特定性能需求的存储服务和配置
- 数据存储格式(如 .csv、.txt、Parquet)
- 如何使数据存储与数据迁移要求保持一致
- 如何确定适合特定访问模式的存储解决方案
- 如何管理锁定以防止对数据的访问(如 Amazon Redshift、Amazon RDS)
技能:
- 实施适当的存储服务以满足特定的成本和性能要求(如 Amazon Redshift、Amazon EMR、AWS Lake Formation、Amazon RDS、DynamoDB、Amazon Kinesis Data Streams、Amazon MSK)
- 为特定的访问模式和要求配置适当的存储服务(如 Amazon Redshift、Amazon EMR、Lake Formation、Amazon RDS、DynamoDB)
- 将存储服务应用于适当的用例(如 Amazon S3)
- 将迁移工具集成到数据处理系统中(如 AWS Transfer Family)
- 实施数据迁移或远程访问方法(如 Amazon Redshift 联合查询、Amazon Redshift 物化视图、Amazon Redshift Spectrum)
任务陈述 2.2: 了解数据编目系统。
知识:
- 如何创建数据目录
- 根据需求对数据进行分类
- 元数据和数据目录的组件
技能:
- 使用数据目录从数据源消费数据
- 构建和引用数据目录(如 AWS Glue 数据目录、Apache Hive 元存储)
- 发现架构并使用 AWS Glue 爬网器填充数据目录
- 同步分区与数据目录
- 创建新的源或目标连接以进行编目(如 AWS Glue)
任务陈述 2.3: 管理数据生命周期。
知识:
- 适当的存储解决方案以解决热数据和冷数据要求
- 如何根据数据生命周期优化存储成本
- 如何删除数据以满足业务和法律要求
- 数据保留政策和存档策略
- 如何使用适当的弹性和可用性来保护数据
技能:
- 执行加载和卸载操作以在 Amazon S3 和 Amazon Redshift 之间移动数据
- 管理 S3 生命周期策略以更改 S3 数据的存储层
- 在数据达到特定年龄时使用 S3 生命周期策略过期数据
- 管理 S3 版本控制和 DynamoDB TTL
任务陈述 2.4: 设计数据模型和架构演化。
知识:
- 数据建模概念
- 如何通过数据溯源确保数据的准确性和可信度
- 最佳实践索引、分区策略、压缩和其他数据优化技术
- 如何为结构化、半结构化和非结构化数据建模
- 模式演化技术
技能:
- 为 Amazon Redshift、DynamoDB 和 Lake Formation 设计架构
- 应对数据特征的变化
- 执行架构转换(如使用 AWS Schema Conversion Tool (AWS SCT) 和 AWS DMS 架构转换)
- 使用 AWS 工具(如 Amazon SageMaker ML 溯源跟踪)建立数据溯源
域 3: 数