제대로 다진 기초 통계, 내 데이터 분석의 탄탄한 주춧돌이 되다! 왜 통계를 이해하고 나서 데이터를 다뤄야 하는가?
데이터를 분석·해석하는 방법은 다양하지만, 공통적으로 통계의 사고방식에 기본 바탕을 둡니다. 그러므로 본격적으로 데이터를 분석하기 위해서는, 먼저 통계 분야의 지식과 관점을 반드시 제대로 익혀야 한다. 이 책은 데이터를 자주 접하며 본업에 활용할 체계적인 통계 지식을 익히고 싶지만, 그것에 시간과 노력을 본격적으로 투자하기에는 곤란한 분들을 위해 쓰였다. 데이터 분석에 반드시 필요한 추론통계부터 가설검정, 상관과 인과, 통계 모형화, 베이즈 통계, 기계학습, 수리 모형에 이르기까지, 폭넓은 주제를 딱 알맞은 수준으로 망라했다. 개념 소개는 되도록 쉽게, 수학 공식이나 설명은 가능한 한 적게 했습니다. 한편 예시 그림과 그래프는 최대한 풍부하게 싣고, 친숙한 사례도 여럿 소개했다. 이 책 『통계 101×데이터 분석』만으로도, 실전 데이터 분석에 필요한 여러 기본 통계 개념과 관점을 충분히 배울 수 있으리라 자신한다.
Contents
시작하며
1장 통계학이란?: 데이터 분석에서 통계학의 역할
1.1 데이터를 분석하다
데이터와 통계학
데이터 분석의 목적
1.2 통계학의 역할
통계학은 데이터 퍼짐 정도가 클수록 힘을 발휘한다
데이터 퍼짐이 작은 현상
1.3 통계학의 전체 모습
기술통계와 추론통계
다양한 분석 방법
2장 모집단과 표본: 데이터 분석 목적과 대상 설정
2.1 데이터 분석의 목적과 알고자 하는 대상
데이터 분석의 목적
알고자 하는 대상
2.2 모집단
모집단을 생각하다
모집단 크기
2.3 모집단의 성질을 알다
모집단의 성질
전수조사
표본조사
표본크기
3장 통계분석의 기초: 데이터 유형, 통계량, 확률
3.1 데이터 유형
모집단과 표본
변수
다양한 데이터 종류
3.2 데이터 분포
그림으로 데이터 분포 표현하기
히스토그램은 그림으로 나타낸 것일 뿐
3.3 통계량
데이터 특징 짓기
다양한 기술통계량
분산을 확인할 수 있는 상자 수염 그림
이상값
3.4 확률
확률을 배우기 전에
확률의 기본 사고방식
추론통계와 확률분포
확률변수가 2개일 때
3.5 이론적인 확률분포
확률분포와 파라미터
정규분포
표준화
다양한 확률분포
4장 추론통계~신뢰구간: 데이터로 모집단의 성질을 추정한다
4.1 추론통계를 배우기 전에
전수조사와 표본조사
데이터를 얻는다는 것
무작위추출
추론통계를 직감적으로 이해하기
4.2 표본오차와 신뢰구간
모집단과 데이터 사이의 오차 고려하기
표본오차
표본오차의 확률분포
신뢰구간이란
t분포와 95% 신뢰구간
신뢰구간과 가설검정
5장 가설검정: 가설검정과 p값
5.1 가설검정의 원리
또 하나의 추론통계 방법
통계학에서 가설이란
p값
가정검정 흐름 정리
5.2 가설검정 시행
가설검정의 구체적인 계산
기각역과 p값
신뢰구간과 가설검정의 관계
가설검정의 구체적인 예
5.3 가설검정 관련 그래프
오차 막대
“통계적으로 유의미”를 나타내는 표기
5.4 제1종 오류와 제2종 오류
진실과 판단의 4패턴
α와 β는 상충 관계
효과크기를 달리 했을 때의 α와 β
6장 다양한 가설검정: t검정부터 분산분석, 카이제곱검정까지
6.1 다양한 가설검정
가설검정 방법 구분해 사용하기
6.2 대푯값 비교
모수검정의 평균값 비교
비모수검정의 대표값 비교
분산분석 (3개 집단 이상의 평균값 비교)
다중비교 검정
6.3 비율 비교
범주형 데이터
이항검정
카이제곱검정: 적합도검정
카이제곱검정: 독립성검정
7장 상관과 회귀: 두 양적 변수의 관계를 분석하다
7.1 양적 변수 사이의 관계를 밝히다
2개의 양적 변수로 이루어진 데이터
산점도
상관
회귀
7.2 상관관계
피어슨 상관계수
비모수 상관계수
상관계수와 가설
비선형상관
7.3 선형회귀
회귀분석이란?
회귀계수
결정계수
오차의 등분산성과 정규성
설명변수와 반응변수
8장 통계 모형화: 선형회귀에서 일반화선형모형으로
8.1 선형회귀 원리의 확장
선형회귀는 다양한 해석 방법의 기초
다중회귀
편회귀계수
범주형 변수를 설명변수로
공분산분석
고차원 데이터 문제
다중공선성
8.2 회귀모형의 형태 바꾸기
상호작용
이원배치 분산분석
비선형회귀
8.3 일반화선형모형의 개념
선형회귀 원리 확장하기
가능도와 최대가능도 방법
로지스틱 회귀
푸아송 회귀
다양한 일반화선형모형
8.4 통계 모형의 평가와 비교
왈드 검정
가능도비 검정
AIC
BIC
그 밖의 정보기준
9장 가설검정의 주의점: 재현 가능성과 p-해킹
9.1 재현성
가설검정, 이해는 어렵지만 시행은 간단
재현성 위기
재현 불가능한 원인은?
과학 논문 게재 과정
9.2 가설검정의 문제점
가설검정 이해하기
p값 되돌아보기
피셔류 검정과 네이만피어슨류 검정
효과크기
베이즈 인수
논문이 옳지 않을 확률
좋은 가설 세우기
9.3 p해킹
p해킹(p-hacking)이란?
p해킹을 예방하기 위한 노력들
가설검정을 이해할 때 확인할 항목
10장 인과와 상관: 잘못된 해석을 방지하기 위한 사고방식
10.1 인과와 상관
인과관계 밝히기
인과관계와 상관관계
인과관계와 상관관계의 다양한 사례
10.2 무작위 통제 실험
인과관계를 밝히려면
무작위 통제 실험
10.3 통계적 인과 추론
인과효과를 추정하는 또 다른 방법
11장 베이즈 통계: 유연한 분석을 향해서
11.1 베이즈 통계의 사고방식
통계학의 2가지 흐름
베이즈 통계의 이미지
통계 모형
베이즈 통계의 사고방식
베이즈 통계의 이점
11.2 베이즈 통계 알고리즘
MCMC 방법
MCMC 방법의 예
11.3 베이즈 통계 사례
이표본 평균값 비교
푸아송 회귀의 예
계층적 베이지안 모형
12장 통계분석과 관련된 그 밖의 방법: 주성분분석부터 기계학습까지
12.1 주성분분석
변수의 차원
주성분분석
인자분석
12.2 기계학습 입문
기계학습이란?
통계학과 기계학습의 차이
12.3 비지도 학습
비지도 학습이란?
12.4 지도 학습
지도 학습이란?
예측 성능 측정 ①: 이진 클래스 분류
예측 성능 측정 ②: 회귀
13장 모형: 통계 모형·기계학습 모형·수리 모형
13.1 모형이란?
통계 모형·기계학습 모형·수리 모형
모형은 현상을 이해하는 도구
수리 모형이란?
13.2 수리 모형: 미분 방정식
미분 방정식과 차분 방정식
수리 모형 사례 ①: 수의 변화를 모형으로
수리 모형 사례 ②: 감염병 모형
복잡한 모형으로
13.3 수리 모형: 확률 모형
확률 모형
수리 모형의 역할
마치며
찾아보기
Author
아베 마사토,안동현
현 일본 이화학연구소 혁신지능통합연구센터 연구원. 도쿄대학교에 입학하여 광역과학 전공으로 박사학위를 취득한 뒤, 일본학술진흥회(DC1)와 국립정보학연구소 과학기술진흥기구(JST) 연구원을 거쳐 현재에 이르렀다. 통계 및 기계학습을 이용한 데이터 분석과 수리 모형 해석을 무기로 곤충의 사회성, 인간의 뇌와 행동, 사회, 생태계 등 폭넓은 주제를 연구해 왔고, 이를 인정받아 일본 수리생물학회 연구장려상을 수상했다.
과거 국제기독교대학교와 도쿄농업대학교의 강사 시절, 초보자를 위한 통계학 강의로 많은 학생으로부터 호평받은 바 있다. 이 책은 그때의 경험을 살려 저술한 것이다. 다른 저서로 《R로 배우는 통계학 입문(Rで?ぶ統計?入門)》, 《Python과 R로 배우는 데이터 과학(Python, Rで?ぶデ?タサイエン)》 등이 있다.
현 일본 이화학연구소 혁신지능통합연구센터 연구원. 도쿄대학교에 입학하여 광역과학 전공으로 박사학위를 취득한 뒤, 일본학술진흥회(DC1)와 국립정보학연구소 과학기술진흥기구(JST) 연구원을 거쳐 현재에 이르렀다. 통계 및 기계학습을 이용한 데이터 분석과 수리 모형 해석을 무기로 곤충의 사회성, 인간의 뇌와 행동, 사회, 생태계 등 폭넓은 주제를 연구해 왔고, 이를 인정받아 일본 수리생물학회 연구장려상을 수상했다.
과거 국제기독교대학교와 도쿄농업대학교의 강사 시절, 초보자를 위한 통계학 강의로 많은 학생으로부터 호평받은 바 있다. 이 책은 그때의 경험을 살려 저술한 것이다. 다른 저서로 《R로 배우는 통계학 입문(Rで?ぶ統計?入門)》, 《Python과 R로 배우는 데이터 과학(Python, Rで?ぶデ?タサイエン)》 등이 있다.