이 책은 데이터 과학(data science)에 입문할 때 기본적으로 알아야 할 통계학의 개념들과 주요 머신러닝 알고리즘들을 빠르게 학습하는 것을 목적으로 한다. 머신러닝을 학습하기에 앞서 탐색적 자료 분석, 확률분포, 추정과 가설 검정, 공분산과 상관계수, 회귀 분석 등 기초 통계학을 살펴본 후, 머신러닝의 지도 학습 알고리즘과 비지도 학습 알고리즘을 학습하도록 목차를 구성하였다.
지도 학습 알고리즘으로는 의사결정나무와 앙상블, KNN, SVM, 나이브 베이즈 분류, 인공신경망을 살펴보고, 비지도 학습 알고리즘으로는 차원 축소, 계층적/비계층적 군집 분석, 연관규칙학습을 다룬다. 이밖에 시계열 분석에 대한 내용도 포함되어 있다. 이론적인 설명은 최대한 간략하게 소개하는 한편, 파이썬 코드를 통해 각종 개념들을 이해하고 다양한 알고리즘으로 모델을 구현하는 방법을 익히는 것에 중점을 두었다. 이 때문에 책의 분량의 상당 부분을 파이썬 예제 코드를 담는 것에 할애하였다.
2-1. 결측치 처리
결측치 확인
Zero imputation & Constant imputation
대푯값으로 채우는 방법
단순확률대치법
다른 변수들로부터 모델링을 하여 결측값을 예측하는 방법
보간법
실제값과 대치값 비교
2-2. 이상치 처리
절단
조정
클리핑
2-3. 클래스 불균형 처리
클래스 불균형 데이터 생성하기
랜덤오버샘플링
SMOTE
Borderline SMOTE
K-means SMOTE
SVM SMOTE
ADASYN
오버샘플링된 데이터로 분류 학습 및 결과 비교
2-4. 변수변환
2-4-1. 수치형 변수 변환
표준화
최소최대 스케일링
Robust scaling
Quantile scaling
Feature scaling한 데이터로 로지스틱 회귀 분석 및 결과 비교
로그 변환
거듭제곱변환
Target scaling한 데이터로 시각화, 선형 회귀 분석 및 결과 비교
순위로 변환
구간 분할
2-4-2. 범주형 변수 변환
원핫인코딩
더미코딩
숫자로 표현된 범주형 특성 변환
레이블 인코딩
특징 해싱
빈도 인코딩
3장 표본추출, 데이터 분할, 교차검증
3-1. 표본 추출
단순랜덤추출법
계통추출법
집락추출법
층화추출법
3-2. 데이터 분할
일반적 데이터 분할 및 홀드아웃 방법
Bootstrap
Shuffle split
K-fold 분할
Stratified K-fold 분할
Group K-fold 분할
3-3. 교차 검증
분할 샘플들로 교차 검증
파라미터 후보들로 교차 검증
4장 확률분포
4-1. 특수한 이산형 확률분포들
베르누이 분포
이항분포
음이항분포
기하분포
초기하분포
포아송 분포
4-2. 특수한 연속형 확률분포들
균일분포
정규분포와 표준정규분포
지수분포
감마분포
카이제곱분포
t분포
F분포
8-1. 선형 회귀
8-1-1. 단순 선형 회귀
8-1-2. 다중 선형 회귀
영향치 판단
VIF 계산
변수 선택과 가능도
잔차 분석
8-1-3. 규제 선형 회귀
릿지 회귀
라쏘 회귀
엘라스틱 넷
8-1-4. 일반화 선형 회귀
로지스틱 회귀
포아송 회귀
8-1-5. 아웃라이어에 강한 선형 회귀
Robust regression
Quantile regression
8-2. 비선형 회귀
다항 회귀
스플라인 회귀
9장 지도 학습 알고리즘
9-1. 의사결정나무와 앙상블
9-1-1. 의사결정나무
9-1-2. 앙상블
배깅
부스팅
랜덤 포레스트와 Extra-trees
스태킹
9-2. KNN
9-3. SVM
9-4. 나이브 베이즈 분류
베이즈 통계
나이브 베이즈 분류
9-5. 인공신경망
다층 퍼셉트론
10장 비지도 학습 알고리즘
10-1. 차원 축소
주성분 분석
LSA
요인 분석
독립성분 분석
음수 미포함 행렬 분해
다차원 척도법
t-SNE
원본 데이터와 차원 축소 데이터로 적합한 모델 성능 비교
10-2. 군집 분석
10-2-1. 계층적 군집 분석
10-2-2. 비계층적 군집 분석
K-means clustering
DBSCAN
혼합분포군집
SOM
10-3. 연관규칙학습
11장 모델 평가 지표와 거리 지표
11-1. 회귀모델 평가 지표
11-2. 분류모델 평가 지표
11-3. 군집모델 평가 지표
실제 군집값이 없는 경우
실제 군집값이 있는 경우
11-4. 거리 지표
연속형 변수의 거리들
범주형 변수의 거리들
12장 시계열 분석
12-1. 시계열 탐색적 분석
12-1-1. 일반적 EDA
12-1-2. 시계열에 특화된 EDA
정상성 확인
자기상관 확인
시계열 분해
12-2. 시계열 데이터 전처리
시계열 데이터 다루기
시계열 빈도 변경 (업샘플링, 다운샘플링)
결측치 처리
차분과 변환
12-3. 시계열 모델링 및 평가
12-3-1. 통계 모델
12-3-2. 머신러닝 모델
Author
조정임
이화여자대학교에서 중어중문학을 전공한 후, 스마트폰 기업, 시스템 반도체 기업 등에서 해 외영업 및 마케팅 업무를 하였다. 이후, 현장의 데이터들을 효과적으로 업무에 적용할 방법을 찾기 위해 빅데이터 국비지원 교육을 수료하고, 데이터 분석 전문가 국가공인 자격증 ADP를 취득하였으며, KOPIS 빅데이터 분석 공모전 수상도 하였다. 현재는 데이터 분석 기반 컨텐츠 플랫폼, 알고보니(AlgoBoni)의 대표로 일 하고 있다.
이화여자대학교에서 중어중문학을 전공한 후, 스마트폰 기업, 시스템 반도체 기업 등에서 해 외영업 및 마케팅 업무를 하였다. 이후, 현장의 데이터들을 효과적으로 업무에 적용할 방법을 찾기 위해 빅데이터 국비지원 교육을 수료하고, 데이터 분석 전문가 국가공인 자격증 ADP를 취득하였으며, KOPIS 빅데이터 분석 공모전 수상도 하였다. 현재는 데이터 분석 기반 컨텐츠 플랫폼, 알고보니(AlgoBoni)의 대표로 일 하고 있다.