AWS 기계 학습 엔지니어 - 어소시에이트(MLA-C01) 시험 가이드
소개
AWS 기계 학습 엔지니어 - 어소시에이트(MLA-C01) 시험은 후보자가 AWS 클라우드를 사용하여 기계 학습(ML) 솔루션 및 파이프라인을 구축, 운영, 배포 및 유지 관리할 수 있는 능력을 검증합니다.
이 시험은 후보자가 다음과 같은 작업을 완료할 수 있는 능력을 검증합니다:
- 데이터를 수집, 변환, 유효성 검사 및 ML 모델링을 위한 준비.
- 일반 모델링 접근 방식 선택, 모델 학습, 하이퍼파라미터 튜닝, 모델 성능 분석 및 모델 버전 관리.
- 배포 인프라 및 엔드포인트 선택, 컴퓨팅 리소스 프로비저닝 및 요구 사항에 따른 자동 스케일링 구성.
- ML 워크플로우의 자동화된 조정을 위한 지속적 통합 및 지속적 전달(CI/CD) 파이프라인 설정.
- 문제를 감지하기 위한 모델, 데이터 및 인프라 모니터링.
- 액세스 제어, 규정 준수 기능 및 모범 사례를 통해 ML 시스템 및 리소스 보안 유지.
대상 후보자 설명
대상 후보자는 Amazon SageMaker와 ML 엔지니어링을 위한 기타 AWS 서비스를 1년 이상 사용한 경험이 있어야 합니다. 대상 후보자는 또한 백엔드 소프트웨어 개발자, DevOps 개발자, 데이터 엔지니어 또는 데이터 과학자와 같은 관련 역할에서 1년 이상의 경험이 있어야 합니다.
권장 일반 IT 지식
대상 후보자는 다음과 같은 일반 IT 지식을 가지고 있어야 합니다:
- 일반적인 ML 알고리즘과 그 사용 사례에 대한 기본적인 이해
- ML 데이터 파이프라인으로 작업하기 위한 데이터 엔지니어링 기본 지식, 일반적인 데이터 형식, 수집 및 변형
- 데이터 쿼리 및 변환 지식
- 모듈화, 재사용 가능한 코드 개발, 배포 및 디버깅을 위한 소프트웨어 엔지니어링 모범 사례 지식
- 클라우드 및 온프레미스 ML 리소스 프로비저닝 및 모니터링에 대한 경험
- CI/CD 파이프라인 및 인프라 as 코드(IaC)에 대한 경험
- 버전 관리 및 CI/CD 파이프라인을 위한 코드 리포지토리 사용 경험
권장 AWS 지식
대상 후보자는 다음과 같은 AWS 지식을 가지고 있어야 합니다:
- SageMaker의 모델 구축 및 배포 기능과 알고리즘에 대한 지식
- 모델링을 위한 데이터 준비를 위한 AWS 데이터 스토리지 및 처리 서비스 지식
- AWS에 애플리케이션 및 인프라 배포에 대한 경험
- ML 시스템 로깅 및 문제 해결을 위한 모니터링 도구 지식
- CI/CD 파이프라인의 자동화 및 조정을 위한 AWS 서비스 지식
- ID 및 액세스 관리, 암호화, 데이터 보호를 위한 AWS 보안 모범 사례의 이해
대상 후보자의 범위를 벗어나는 작업 과제
다음 목록에는 대상 후보자가 수행할 것으로 예상되지 않는 작업 과제가 포함되어 있습니다. 이 목록은 포괄적이지 않습니다. 이러한 작업은 시험 범위를 벗어납니다:
- 완전한 엔드투엔드 ML 솔루션 설계 및 아키텍처링
- 모범 사례 수립 및 ML 전략 지침 제공
- 광범위한 서비스 또는 새로운 도구 및 기술과의 통합 처리
- 두 개 이상의 ML 도메인(예: 자연어 처리[NLP], 컴퓨터 비전)에서 깊이 있게 작업
- 모델 양자화 및 정확성 영향 분석
부록에는 범위에 포함된 AWS 서비스 및 기능과 범위를 벗어난 AWS 서비스 및 기능의 목록이 있습니다.
시험 내용
문항 유형
이 시험에는 다음과 같은 유형의 문항이 포함됩니다:
- 선다형: 1개의 정답과 3개의 오답(방해 요소)이 있습니다.
- 복수 선택형: 5개 이상의 선택지 중 2개 이상의 정답이 있습니다. 모든 정답을 선택해야 문항 점수를 받을 수 있습니다.
- 순서 지정형: 지정된 작업을 완료하기 위해 3-5개의 응답 목록이 있습니다. 모든 응답을 올바른 순서로 선택해야 문항 점수를 받을 수 있습니다.
- 매칭형: 3-7개의 프롬프트 목록과 응답 목록을 일치시켜야 합니다. 모든 쌍을 정확하게 일치시켜야 문항 점수를 받을 수 있습니다.
- 사례 연구: 하나의 시나리오와 시나리오에 대한 2개 이상의 문항이 있습니다. 사례 연구의 각 문항은 별도로 평가됩니다. 사례 연구의 각 문항에 대해 정답을 선택하면 점수를 받을 수 있습니다.
시험에서 응답하지 않은 문항은 틀린 것으로 처리됩니다. 추측에 대한 페널티는 없습니다. 시험에는 점수에 반영되는 50문항이 포함되어 있습니다.¹
채점되지 않는 내용
시험에는 점수에 반영되지 않는 15문항이 포함되어 있습니다. AWS는 이러한 채점되지 않는 문항의 성능을 평가하여 향후 점수에 반영되는 문항으로 사용할 수 있습니다. 이러한 채점되지 않는 문항은 시험에서 식별되지 않습니다.
¹ 시험 베타 버전에는 적용되지 않습니다. 베타 시험에 대한 자세한 내용은 AWS 인증 웹사이트를 참조하세요.
시험 결과
AWS 기계 학습 엔지니어 - 어소시에이트(MLA-C01) 시험은 합격 또는 불합격으로 판정됩니다. 이 시험은 AWS 전문가가 인증 산업의 모범 사례와 지침을 따라 수립한 최소 기준과 비교하여 채점됩니다.
시험 결과는 100-1,000점 범위의 척도 점수로 보고됩니다. 최소 합격 점수는 720점입니다. 귀하의 점수는 전체 시험 성적과 합격 여부를 나타냅니다. 척도 점수 모델은 난이도가 약간 다른 여러 시험 양식 간의 점수를 조정하는 데 도움이 됩니다.
성적 보고서에는 각 섹션별 성과 분류 테이블이 포함될 수 있습니다. 이 시험은 보상 점수 모델을 사용하므로 각 섹션에서 합격 점수를 얻을 필요는 없습니다. 전체 시험만 합격하면 됩니다.
시험의 각 섹션에는 특정 가중치가 적용되므로 일부 섹션에는 다른 섹션보다 더 많은 문항이 있습니다. 성과 분류 테이블에는 귀하의 강점과 약점을 강조하는 일반적인 정보가 포함되어 있습니다. 섹션 수준 피드백을 해석할 때는 주의해야 합니다.
콘텐츠 개요
이 시험 가이드에는 시험의 가중치, 콘텐츠 도메인 및 작업 명세서가 포함되어 있습니다. 이 가이드에는 시험에 포함된 모든 콘텐츠의 포괄적인 목록은 제공되지 않습니다. 그러나 각 작업 명세서에 대한 추가 컨텍스트를 제공하여 시험 준비에 도움이 됩니다.
이 시험에는 다음과 같은 콘텐츠 도메인 및 가중치가 적용됩니다:
- 도메인 1: 기계 학습(ML)을 위한 데이터 준비(채점된 내용의 28%)
- 도메인 2: ML 모델 개발(채점된 내용의 26%)
- 도메인 3: ML 워크플로우의 배포 및 조정(채점된 내용의 22%)
- 도메인 4: ML 솔루션 모니터링, 유지 관리 및 보안(채점된 내용의 24%)
도메인 1: 기계 학습(ML)을 위한 데이터 준비
작업 명세서 1.1: 데이터 수집 및 저장
지식:
- 데이터 형식 및 수집 메커니즘(예: 검증된 및 검증되지 않은 형식, Apache Parquet, JSON, CSV, Apache ORC, Apache Avro, RecordIO)
- 핵심 AWS 데이터 소스 사용 방법(예: Amazon S3, Amazon Elastic File System[Amazon EFS], Amazon FSx for NetApp ONTAP)
- 데이터 수집을 위한 AWS 스트리밍 데이터 소스 사용 방법(예: Amazon Kinesis, Apache Flink, Apache Kafka)
- 사용 사례 및 트레이드오프를 고려한 AWS 스토리지 옵션
기술:
- 관련 AWS 서비스 옵션을 사용하여 스토리지(예: Amazon S3, Amazon Elastic Block Store[Amazon EBS], Amazon EFS, Amazon RDS, Amazon DynamoDB)에서 데이터 추출
- 데이터 액세스 패턴에 따라 적절한 데이터 형식(예: Parquet, JSON, CSV, ORC) 선택
- Amazon SageMaker Data Wrangler 및 SageMaker Feature Store로 데이터 수집
- 프로그래밍 기술, AWS Glue, Apache Spark를 사용하여 여러 소스의 데이터 병합
- 용량 및 확장성 관련 데이터 수집 및 저장 문제 문제 해결 및 디버깅
- 비용, 성능 및 데이터 구조를 고려하여 초기 저장 결정 내리기
작업 명세서 1.2: 데이터 변환 및 특징 엔지니어링 수행
지식:
- 데이터 정리 및 변환 기술(예: 이상치 감지 및 처리, 누락 데이터 보완, 결합, 중복 제거)
- 특징 엔지니어링 기술(예: 데이터 크기 조정 및 표준화, 특징 분할, 빈닝, 로그 변환, 정규화)
- 인코딩 기술(예: 원-핫 인코딩, 이진 인코딩, 라벨 인코딩, 토큰화)
- 데이터 및 특징을 탐색, 시각화 또는 변환하는 도구(예: SageMaker Data Wrangler, AWS Glue, AWS Glue DataBrew)
- 스트리밍 데이터를 변환하는 서비스(예: AWS Lambda, Spark)
- 고품질 레이블이 지정된 데이터세트를 만드는 데이터 주석 및 레이블링 서비스
기술:
- AWS 도구(예: AWS Glue, AWS Glue DataBrew, Amazon EMR의 Spark)를 사용하여 데이터 변환
- AWS 도구(예: SageMaker Feature Store)를 사용하여 특징 생성 및 관리
- AWS 서비스(예: SageMaker Ground Truth, Amazon Mechanical Turk)를 사용하여 데이터 유효성 검사 및 레이블링
작업 명세서 1.3: 데이터 무결성 보장 및 모델링을 위한 데이터 준비
지식:
- 숫자, 텍스트 및 이미지 데이터에 대한 사전 학습 편향 메트릭(예: 클래스 불균형[CI], 레이블 비율 차이[DPL])
- 숫자, 텍스트 및 이미지 데이터세트의 CI를 해결하기 위한 전략(예: 합성 데이터 생성, 리샘플링)
- 데이터 암호화 기술
- 데이터 분류, 익명화 및 마스킹
- 규정 준수 요구 사항의 영향(예: 개인 식별 정보[PII], 보호된 건강 정보[PHI], 데이터 거주지)
기술:
- 데이터 품질 유효성 검사(예: AWS Glue DataBrew 및 AWS Glue Data Quality 사용)
- AWS 도구(예: SageMaker Clarify)를 사용하여 데이터의 편향 소스 식별 및 완화(예: 선택 편향, 측정 편향)
- 예측 편향을 줄이기 위해 데이터 준비(예: 데이터세트 분할, 셔플링, 증강 사용)
- 모델 학습 리소스(예: Amazon EFS, Amazon FSx)에 데이터 로드를 위한 구성
도메인 2: ML 모델 개발
작업 명세서 2.1: 모델링 접근 방식 선택
지식:
- 비즈니스 문제를 해결하기 위한 ML 알고리즘의 기능 및 적절한 사용
- 특정 비즈니스 문제를 해결하기 위한 AWS 인공 지능(AI) 서비스(예: Amazon Translate, Amazon Transcribe, Amazon Rekognition, Amazon Bedrock) 사용 방법
- 모델 선택 또는 알고리즘 선택 시 해석성 고려
- SageMaker 기본 제공 알고리즘 및 적용 방법
기술:
- ML 솔루션의 실현 가능성을 판단하기 위해 사용 가능한 데이터와 문제 복잡성 평가
- 특정 문제를 해결하기 위한 적절한 ML 모델 또는 알고리즘 비교 및 선택
- 기본 제공 알고리즘, 기반 모델 및 솔루션 템플릿(예: SageMaker JumpStart, Amazon Bedrock) 선택
- 비용을 기반으로 모델 또는 알고리즘 선택
- 일반적인 비즈니스 요구 사항을 해결하기 위한 AI 서비스 선택
작업 명세서 2.2: 모델 학습 및 개선
지식:
- 학습 프로세스의 요소(예: 에포크, 단계, 배치 크기)
- 모델 학습 시간을 줄이는 방법(예: 조기 중지, 분산 학습)
- 모델 크기에 영향을 미치는 요인
- 모델 성능을 향상시키는 방법
- 정규화 기법의 이점(예: 드롭아웃, 가중치 감소, L1 및 L2)
- 하이퍼파라미터 튜닝 기법(예: 무작위 검색, 베이지안 최적화)
- 모델 성능에 영향을 미치는 모델 하이퍼파라미터(예: 트리 기반 모델의 트리 수, 신경망의 레이어 수)
- SageMaker 외부에서 구축된 모델을 SageMaker에 통합하는 방법
기술:
- SageMaker 기본 제공 알고리즘 및 일반 ML 라이브러리를 사용하여 ML 모델 개발
- SageMaker 지원 프레임워크(예: TensorFlow, PyTorch)로 SageMaker 스크립트 모드를 사용하여 모델 학습
- 사용자 지정 데이터세트를 사용하여 사전 학습 모델 미세 조정(예: Amazon Bedrock, SageMaker JumpStart)
- 하이퍼파라미터 튜닝 수행(예: SageMaker 자동 모델 튜닝[AMT] 사용)
- 자동 하이퍼파라미터 최적화 기능 통합
- 과적합, 과소적합 및 치명적 망각 방지(예: 정규화 기술, 특징 선택 사용)
- 다중 학습 모델 결합하여 성능 향상(예: 앙상블, 스태킹, 부스팅)
- 데이터 유형 변경, 가지치기, 특징 선택 업데이트, 압축 등을 통해 모델 크기 축소
- SageMaker Model Registry를 사용하여 반복성 및 감사를 위해 모델 버전 관리
작업 명세서 2.3: 모델 성능 분석
지식:
- 모델 평가 기술 및 지표(예: 혼동 행렬, 열 맵, F1 점수, 정확도, 정밀도, 재현율, 루트 평균 제곱 오차[RMSE], 수신기 작동 특성[ROC], ROC 곡선 아래 영역[AUC])
- 성능 기준 생성 방법
- 모델 과적합 및 과소적합 식별 방법
- SageMaker Clarify에서 제공하는 ML 학습 데이터 및 모델에 대한 통찰력을 얻을 수 있는 지표
- 수렴 문제
기술:
- 평가 지표 선택 및 해석, 모델 편향 감지
- 모델 성능, 학습 시간 및 비용 간 트레이드오프 평가
- AWS 서비스를 사용하여 재현 가능한 실험 수행
- 프로덕션 변형의 성능과 비교하여 그림자 변형 성능 평가
- SageMaker Clarify를 사용하여 모델 출력 해석
- SageMaker Model Debugger를 사용하여 모델 수렴 디버깅
도메인 3: ML 워크플로우의 배포 및 조정
작업 명세서 3.1: 기존 아키텍처 및 요구 사항에 따라 배포 인프라 선택
지식:
- 배포 모범 사례(예: 버전 관리, 롤백 전략)
- AWS 배포 서비스(예: SageMaker)
- 실시간 및 일괄 처리 모델 서빙 방법
- 프로덕션 및 테스트 환경에서 컴퓨팅 리소스 프로비저닝 방법(예: CPU, GPU)
- 배포 엔드포인트에 대한 모델 및 엔드포인트 요구 사항(예: 서버리스 엔드포인트, 실시간 엔드포인트, 비동기 엔드포인트, 일괄 추론)
- 적절한 컨테이너 선택 방법(예: 제공된 또는 맞춤형)
- 엣지 디바이스에서 모델 최적화 방법(예: SageMaker Neo)
기술:
- 성능, 비용 및 지연 시간 트레이드오프 평가
- 요구 사항에 따라 학습 및 추론을 위한 적절한 컴퓨팅 환경 선택(예: GPU 또는 CPU 사양, 프로세서 제품군, 네트워크 대역폭)
- 적절한 배포 오케스트레이터 선택(예: Apache Airflow, SageMaker Pipelines)
- 다중 모델 또는 다중 컨테이너 배포 선택
- 올바른 배포 대상 선택(예: SageMaker 엔드포인트, Kubernetes, Amazon Elastic Container Service[Amazon ECS], Amazon Elastic Kubernetes Service[Amazon EKS], Lambda)
- 모델 배포 전략 선택(예: 실시간, 일괄 처리)
작업 명세서 3.2: 기존 아키텍처 및 요구 사항에 따라 인프라 생성 및 스크립팅
지식:
- 주문형 및 프로비저닝된 리소스의 차이점
- 스케일링 정책 비교 방법
- 인프라 as 코드(IaC) 옵션(예: AWS CloudFormation, AWS Cloud Development Kit[AWS CDK])의 트레이드오프 및 사용 사례
- 컨테이너화 개념 및 AWS 컨테이너 서비스
- SageMaker 엔드포인트 자동 스케일링 정책을 사용하여 확장성 요구 사항을 충족하는 방법(예: 수요, 시간 기반)
기술:
- 유지 관리 가능하고, 확장 가능하며, 비용 효율적인 ML 솔루션을 가능하게 하는 모범 사례 적용(예: SageMaker 엔드포인트의 자동 스케일링, 스팟 인스턴스 동적 추가, Amazon EC2 인스턴스 사용, Lambda를 사용하여 엔드포인트 뒤에서)
- CloudFormation, AWS CDK를 사용하여 컴퓨팅 리소스 프로비저닝 자동화, 스택 간 통신 포함
- 컨테이너 구축 및 유지 관리(예: Amazon Elastic Container Registry[Amazon ECR], Amazon EKS, Amazon ECS, SageMaker에서 사용자 지정 컨테이너[BYOC] 사용)
- VPC 네트워크 내에서 SageMaker 엔드포인트 구성
- SageMaker SDK를 사용하여 모델 배포 및 호스팅
- 자동 스케일링을 위한 특정 지표 선택(예: 모델 지연 시간, CPU 활용률, 인스턴스당 호출)
작업 명세서 3.3: 자동화된 오케스트레이션 도구를 사용하여 지속적 통합 및 지속적 전달(CI/CD) 파이프라인 설정
지식:
- AWS CodePipeline, AWS CodeBuild, AWS CodeDeploy의 기능 및 할당량
- 데이터 수집과 오케스트레이션 서비스 통합 자동화
- 버전 관리 시스템 및 기본 사용법(예: Git)
- CI/CD 원칙 및 ML 워크플로우에 어떻게 적합한지
- 배포 전략 및 롤백 작업(예: 블루/그린, 캐나리, 선형)
- 코드 리포지토리 및 파이프라인이 어떻게 작동하는지
기술:
- CodeBuild, CodeDeploy, CodePipeline 구성 및 문제 해결, 단계 포함
- 파이프라인 호출을 위한 지속적 배포 흐름 구조 적용(예: Gitflow, GitHub Flow)
- ML 모델 배포, 모델 빌드 자동화 등을 위해 AWS 서비스를 사용하여 오케스트레이션 자동화
- Amazon EventBridge 규칙, SageMaker Pipelines, CodePipeline을 사용하여 학습 및 추론 작업 구성
- CI/CD 파이프라인에서 자동화된 테스트 생성(예: 통합 테스트, 단위 테스트, 엔드-투-엔드 테스트)
- 모델 재학습 메커니즘 구축 및 통합
도메인 4: ML 솔루션 모니터링, 유지 관리 및 보안
작업 명세서 4.1: 모델 추론 모니터링
지식:
- ML 모델의 drift
- 데이터 품질 및 모델 성능 모니터링 기술
- 모니터링과 관련된 ML 렌즈의 설계 원칙
기술:
- 프로덕션 모델 모니터링(예: SageMaker Model Monitor 사용)
- 데이터 처리 또는 모델 추론에서 발생하는 이상 또는 오류를 감지하기 위한 워크플로우 모니터링
- 모델 성능에 영향을 미칠 수 있는 데이터 분포 변화 감지(예: SageMaker Clarify 사용)
- A/B 테스트를 사용하여 프로덕션의 모델 성능 모니터링
작업 명세서 4.2: 인프라 및 비용 모니터링 및 최적화
지식: