머신러닝 솔루션 구축을 위한 프로세스는 1.문제의 식별, 2.데이터 수집, 3.데이터 분석, 4.피처 엔지니어링 및 데이터 정규화, 5.모델 구축, 6.학습, 평가 및 검증, 7.예측 등의 과정이다. MLOps는 데브옵스(DevOps)에서 채택돼 머신러닝에 적용되는 원칙 및 관행으로, 파이프라인의 지속적인 통합과 전달을 보장해 전체 자동화 설정을 완료한다. MLFlow는 기존 코드 베이스에 MLOps 원칙을 통합해 널리 사용되는 다양한 프레임워크를 지원하는 API이다. MLFlow를 사용해서 지표, 파라미터, 그래프 및 모델 자체를 로깅한다. 또한 기록된 모델을 적재하고, 기능을 활용할 수 있다. 프레임워크는 scikit-learn, TensorFlow 2.0/ Keras, PyTorch 및 PySpark의 실험에 MLFlow를 적용하는 방법과 이러한 모델 중 하나를 로컬에 배포하고 모델을 사용해 예측하는 방법을 실행해 본다. 해당 모델을 AWS, Azure, GCP에 배포하고 구성해서 서빙되는 구체적인 방법을 다룬다.
Contents
Chapter 1. 시작하기: 데이터 분석
__소개 및 전제
__신용카드 데이터세트
__데이터세트 적재
__정상 데이터 및 부정 데이터
__플로팅
__요약
Chapter 2. 모델 구축
__소개
__scikit-learn
__데이터 프로세싱
__모델 학습
__모델 평가
__모델 검증
__PySpark
__데이터 처리
__모델 학습
__모델 평가
__요약
Chapter 3. MLOps는 무엇인가?
__소개
__MLOps 구축
__수동 구현
__지속적인 모델 전달
__파이프라인의 지속적인 통합/지속적인 전달
__구축에 대한 회고
__파이프라인 및 자동화
__파이프라인 진행 여정
__모델 선택
__데이터 전처리
__학습 프로세스
__모델 평가
__모델 검증
__모델 요약
__MLOps 구현 방법
__요약
Chapter 4. MLFlow 소개
__소개
__사이킷런(Scikit-Learn)을 활용한 MLFlow
__데이터 처리
__MLFlow를 통한 학습 및 평가
__MLFlow 실행 로깅 및 확인
__로깅된 모델 적재
__MLFlow를 사용한 모델 검증(파라미터 튜닝)
__파라미터 튜닝 - Guided Search
__MLFlow 및 기타 프레임워크 TensorFlow 2.0을 사용한 MLFlow(Keras)
__데이터 처리
__MLFlow 실행 - 학습 및 평가
__MLFlow 모델 적재
__PyTorch를 사용한 MLFlow
__데이터 처리
__MLFlow 실행 - 학습 및 평가
__MLFlow UI - 실행 체크
__MLFlow 모델 적재
__PySpark 을 사용하는 MLFlow
__데이터 처리
__MLFlow 실행 - 학습, UI 및 MLFlow 모델 적재
__로컬 모델 서빙 모델 배포
__모델 쿼리
__스케일링 없는 쿼리
__스케일링을 사용한 쿼리
__배치 쿼리
__요약
Chapter 5. AWS에 배포
__소개
__AWS 구성
__AWS SageMaker에 모델 배포
__예측하기
__모델 전환
__배포된 모델 제거
__요약
Chapter 6. Azure에 배포
__소개
__Azure 구성
__Azure에 배포(개발 단계)
__예측하기
__운영 환경에 배포
__예측하기
__자원 정리하기
__요약
Chapter 7. Google에 배포
__소개
__Google 구성
__버킷 스토리지
__가상 머신 구성
__방화벽 구성
__모델 배포 및 쿼리
__배포 업데이트 및 제거
__자원 정리하기
__요약
Appendix. Databricks
__소개
__Databricks에서 실험 실행
__Azure에 배포
__워크스페이스에 연결
__모델 쿼리
__MLFlow 모델 레지스트리
__요약
Author
스리다르 알라,수만 칼리안 아다리,정이현
SAS 코드를 Python으로 자동 변환하는 것에 초점을 맞춘 제품 Sas2Py(www.sas2py.com)의 벤더인 Bluewhale.one의 설립자이자 CTO이다. 블루웨일(Bluewhale)은 지능적인 이메일 대화 추적부터 소매업계에 영향을 미치는 문제 등에 이르기까지 AI를 활용해 핵심 문제를 해결하는 데도 주력하고 있다. 또한 퍼블릭 클라우드와 사내 인프라 모두에서 AI기반 빅데이터 분석 실무 구축에 관한 깊은 전문 지식을 보유하고 있다. 그는 저자이자 수많은 Strata, Hadoop World, Spark Summit 및 기타 콘퍼런스에서 열정적인 발표자로 활동하고 있을 뿐만 아니라 대규모 컴퓨팅 및 분산 시스템에 대해 미국 PTO에 출원한 여러 특허를 보유하고 있다.
SAS 코드를 Python으로 자동 변환하는 것에 초점을 맞춘 제품 Sas2Py(www.sas2py.com)의 벤더인 Bluewhale.one의 설립자이자 CTO이다. 블루웨일(Bluewhale)은 지능적인 이메일 대화 추적부터 소매업계에 영향을 미치는 문제 등에 이르기까지 AI를 활용해 핵심 문제를 해결하는 데도 주력하고 있다. 또한 퍼블릭 클라우드와 사내 인프라 모두에서 AI기반 빅데이터 분석 실무 구축에 관한 깊은 전문 지식을 보유하고 있다. 그는 저자이자 수많은 Strata, Hadoop World, Spark Summit 및 기타 콘퍼런스에서 열정적인 발표자로 활동하고 있을 뿐만 아니라 대규모 컴퓨팅 및 분산 시스템에 대해 미국 PTO에 출원한 여러 특허를 보유하고 있다.