AWS 机器学习-专业认证 (MLS-C01) 考试指南
简介
AWS 机器学习-专业认证 (MLS-C01) 考试面向从事人工智能和机器学习 (AI/ML) 开发或数据科学工作的人员。该考试验证考生在 AWS 云上设计、构建、部署、优化、训练、调整和维护机器学习解决方案的能力。
该考试还验证考生完成以下任务的能力:
- 为给定的业务问题选择并说明合适的机器学习方法。
- 确定实施机器学习解决方案所需的 AWS 服务。
- 设计和实施可扩展、成本优化、可靠和安全的机器学习解决方案。
目标考生描述
目标考生应具有 2 年或以上在 AWS 云上开发、架构和运行机器学习或深度学习工作负载的经验。
推荐的 AWS 知识
目标考生应具有以下 AWS 知识:
- 表达基本机器学习算法背后的直觉
- 执行基本超参数优化的经验
- 使用机器学习和深度学习框架的经验
- 遵循模型训练最佳实践的能力
- 遵循部署最佳实践的能力
- 遵循操作最佳实践的能力
不在考试范围内的知识
以下列表包含目标考生不需要具备的知识。该列表并非详尽无遗。以下领域的知识不在考试范围内:
- 复杂算法开发
- 复杂的超参数优化
- 复杂的数学证明和计算
- 高级网络和网络设计
- 高级数据库、安全性和 DevOps 概念
- 与 Amazon EMR 相关的 DevOps 任务
请参阅附录,了解可能出现在考试中的技术和概念、考试范围内的 AWS 服务和功能以及考试范围外的 AWS 服务和功能。
考试内容
答题类型
考试有两种类型的问题:
- 多项选择题: 有一个正确答案和三个错误答案(干扰项)
- 多项响应题: 有两个或更多正确答案,从五个或更多选项中选择
选择一个或多个最能完成陈述或回答问题的响应。干扰项或错误答案是知识或技能不完整的考生可能会选择的响应选项。干扰项通常是与内容领域相匹配的合理响应。
未回答的问题会被评为错误;猜测不会受到惩罚。考试包括 50 个影响你得分的问题。
非评分内容
考试包括 15 个不影响得分的非评分问题。AWS 收集这些非评分问题的性能信息,以便将来将其用作评分问题。这些非评分问题在考试中不会被标识出来。
考试结果
AWS 机器学习-专业认证 (MLS-C01) 考试采用通过/不通过的评分方式。该考试是根据 AWS 专业人员遵循认证行业最佳实践和准则所建立的最低标准进行评分的。
您的考试结果以 100-1,000 的标准化分数形式报告。及格分数为 750 分。您的得分反映了您在整个考试中的表现以及您是否通过了考试。标准化评分模型有助于在难度略有不同的多个考试形式之间进行成绩等化。
您的成绩报告可能包含一个对您在每个章节的表现进行分类的表格。本考试采用综合评分模型,这意味着您不需要在每个章节都及格。您只需要通过整个考试即可。
考试的每个章节都有特定的权重,因此某些章节的题目数量多于其他章节。分类表包含一般信息,突出了您的优势和劣势。在解释章节级反馈时请谨慎。
内容大纲
本考试指南包括考试的权重、内容域和任务陈述。该指南并未提供考试内容的全面列表。但是,每个任务陈述都有额外的上下文信息,可帮助您为考试做准备。
考试包含以下内容域和权重:
- 1 域:数据工程 (20% 的评分内容)
- 2 域:探索性数据分析 (24% 的评分内容)
- 3 域:建模 (36% 的评分内容)
- 4 域:机器学习实施和运营 (20% 的评分内容)
1 域: 数据工程
任务陈述 1.1: 为机器学习创建数据存储库。
- 确定数据源(例如内容和位置,如用户数据等主要源)。
- 确定存储介质(例如数据库、Amazon S3、Amazon Elastic File System [Amazon EFS]、Amazon Elastic Block Store [Amazon EBS])。
任务陈述 1.2: 确定和实施数据摄取解决方案。
- 确定数据工作样式和工作类型(例如批量加载、流式传输)。
- 编排数据摄取管道(基于批处理的机器学习工作负载和基于流的机器学习工作负载)。
- Amazon Kinesis
- Amazon Data Firehose
- Amazon EMR
- AWS Glue
- Amazon Managed Service for Apache Flink
- 计划作业。
任务陈述 1.3: 确定和实施数据转换解决方案。
- 转换中转数据(ETL、AWS Glue、Amazon EMR、AWS Batch)。
- 使用 MapReduce 处理机器学习特定数据(例如 Apache Hadoop、Apache Spark、Apache Hive)。
2 域: 探索性数据分析
任务陈述 2.1: 清洁和准备建模数据。
- 识别和处理丢失的数据、损坏的数据和停用词。
- 格式化、标准化、增强和缩放数据。
- 确定是否有足够的标记数据。
- 确定缓解策略。
- 使用数据标注工具(例如 Amazon Mechanical Turk)。
任务陈述 2.2: 执行特征工程。
- 从数据集(包括文本、语音、图像和公共数据集等数据源)中识别和提取特征。
- 分析和评估特征工程概念(例如分箱、标记化、异常值、合成特征、one-hot 编码、降低数据维度)。
任务陈述 2.3: 分析和可视化机器学习数据。
- 创建图表(例如散点图、时间序列、直方图、箱线图)。
- 解释描述性统计(例如相关性、汇总统计、p 值)。
- 执行聚类分析(例如层次聚类、诊断、肘部图、聚类大小)。
3 域: 建模
任务陈述 3.1: 将业务问题框定为机器学习问题。
- 确定在何时使用和不使用机器学习。
- 了解监督学习和无监督学习的区别。
- 从分类、回归、预测、聚类、推荐和基础模型中进行选择。
任务陈述 3.2: 为给定的机器学习问题选择合适的模型。
- XGBoost、逻辑回归、k-means、线性回归、决策树、随机森林、RNN、CNN、集成模型、迁移学习和大型语言模型(LLMs)
- 表达模型背后的直觉。
任务陈述 3.3: 训练机器学习模型。
- 将数据拆分成训练和验证(例如交叉验证)。
- 了解机器学习训练的优化技术(例如梯度下降、损失函数、收敛)。
- 选择合适的计算资源(例如 GPU 或 CPU、分布式或非分布式)。
- 选择合适的计算平台(Spark 或非 Spark)。
- 更新和重新训练模型。
任务陈述 3.4: 执行超参数优化。
- 执行正则化。
- 执行交叉验证。
- 初始化模型。
- 了解神经网络架构(层和节点)、学习率和激活函数。
- 了解基于树的模型(树的数量、层数)。
- 了解线性模型(学习率)。
任务陈述 3.5: 评估机器学习模型。
- 避免过度拟合或欠拟合。
- 评估指标(例如 AUC-ROC、准确性、精确度、召回率、RMSE、F1 分数)。
- 解释混淆矩阵。
- 执行离线和在线模型评估(A/B 测试)。
- 使用指标比较模型(例如训练模型的时间、模型质量、工程成本)。
- 执行交叉验证。
4 域: 机器学习实施和运营
任务陈述 4.1: 构建针对性能、可用性、可扩展性、弹性和容错能力的机器学习解决方案。
- 记录和监控 AWS 环境。
- AWS CloudTrail 和 Amazon CloudWatch
- 构建错误监控解决方案。
- 部署到多个 AWS 区域和多个可用区。
- 创建 AMI 和黄金映像。
- 创建 Docker 容器。
- 部署 Auto Scaling 组。
- 调整资源大小(例如实例、Provisioned IOPS、卷)。
- 执行负载均衡。
- 遵循 AWS 最佳实践。
任务陈述 4.2: 为给定的问题推荐和实施适当的机器学习服务和功能。
- AWS 上的机器学习(应用服务),例如:
- Amazon Polly
- Amazon Lex
- Amazon Transcribe
- Amazon Q
- 了解 AWS 服务配额。
- 确定何时构建自定义模型以及何时使用 Amazon SageMaker 内置算法。
- 了解 AWS 基础设施(例如实例类型)和成本考虑因素。
- 使用 AWS Batch 通过 Spot 实例训练深度学习模型。
任务陈述 4.3: 将基本的 AWS 安全实践应用于机器学习解决方案。
- AWS Identity and Access Management (IAM)
- S3 存储桶策略
- 安全组
- VPC
- 加密和匿名化
任务陈述 4.4: 部署和运营机器学习解决方案。
- 公开端点并与之交互。
- 了解机器学习模型。
- 执行 A/B 测试。
- 重新训练管道。
- 调试和排查机器学习模型。