컴퓨터사이언스 전공자들로부터 데이터베이스, 데이터웨어하우스, 데이터마이닝 등 현란한 용어가 계속 등장하고 꾸준히 진화하면서 발전하고 있다. 통계학도 컴퓨터사이언스와 동반적으로 발전하고 있는데 인공지능(AI), 사물인터넷(IoT) 등과 함께 특히, 요즘 커다란 이슈인 ‘빅데이터(Big Data)’의 등장으로 통계학은 비약적으로 발전하고 있음을 실감한다.
평생을 학교에서 강의와 연구만 해서 학교 밖의 사회 현실에 대하여 둔감하다고 할 수 있다. 그러나 대학교 1, 2학년의 학부생들이 전공을 선택할 때 통계학을 선호하는 현상이 증가하고, 통계학 학위를 가진 학부 졸업생들이 좋은 직장에 다니고 있으며, 통계학을 전공하려고 대학원 석사와 박사과정에 진학하는 대학원생들의 수가 증가하는 추세와 각 대학교에서 통계학 박사를 교수로 초빙하려는 모집 공고가 타 전공과 비교하면 비약적으로 많은 상황 등을 살펴보면, 요즘 통계학의 인기는 그 어떤 시기보다 좋다는 것을 절실하게 느낄 수 있다.
통계학과 학생으로 통계학을 전공하려고 하던 1970년도 후반에는 통계학의 미래는 밝다고 생각하고 언제인지는 모르지만 곧 전망이 밝은 미래가 도래할 것이라고 상상했다. 그 꿈은 컴퓨터의 발전으로 서서히 실현되더니, 인터넷의 개발로 인하여 밝은 미래에 도착하고 더욱 전진할 것 같다. 한마디로 표현하면 (과장되었다고 볼 수도 있지만), 통계학의 르네상스 시대가 시작하였다.라고 감히 얘기할 수 있다. 르네상스 시대이다가 아니라 르네상스 시대가 시작되었고 계속 발전하고 있는 상태라는 의미이다.
빅데이터에서 중요한 것은 데이터 관리와 분석이라고 할 수 있는데, 특히 통계학의 사용이 절대적으로 필요한 빅데이터 분석에 대하여 살펴보자. 빅데이터 분석을 하기 위해서는 용량이 큰 데이터를 처리할 수 있는 고가의 슈퍼 컴퓨터를 연상하기 쉽다. 슈퍼 컴퓨터에 대하여도 빅데이터 만큼이나 쉽게 정의하기 어려워 이에 대하여는 본서의 제1장에 서술하였지만, 중요한 점은 제1세대의 슈터 컴퓨터는 현재 여러분의 손에 있는 핸드폰의 기능보다도 떨어진다는 점이다. 아무튼 일반적인 슈퍼 컴퓨터를 사용하지 않고 여러분이 사용하고 있는 개인 컴퓨터를 사용하여도 용량이 큰 데이터를 분석해보면 상식적으로 알고 있는 지식과 일치하는 결과를 얻을 수 없는 경우가 많이 발생한다. 심지어 특정한 현상과 추세 등을 파악하기는 더욱 어렵다. 따라서 빅데이터 분석에서의 통계학의 역할은 더욱 중요하다.
통계학을 활용하여 빅데이터 분석하기 위해서는 대용량 자료를 한꺼번에 사용하는 것보다 빅데이터 자료를 우선 다양하게 분할하고, 분할된 자료를 통계적으로 분석하여 결과를 해석하여야 한다. 그리고 얻은 결과들 중에서 동일하게 해석할 수 있는 자료의 성격을 파악하여 유사한 특성을 가진 분할된 자료를 통합하면서 빅데이터 자료분석을 진행해 나가야 하는 점이 중요하다. 즉 대용량 자료인 빅데이터 자료를 다양하게 분할하여 분석하고 얻은 결과를 해석하여야 하고, 유사하게 해석할 수 있는 분할된 자료를 통합하면서 특성을 파악하는 과정을 반복하면 분석을 진행하여야 한다. 이런 과정 중에서 제일 중요한 것인 ‘통계자료분석’이라고 할 수 있다. 그러므로 빅데이터 분석의 핵심인 통계학의 중요성은 강조하고 다시 강조해도 지나치지 않다.
성균관대학교 학부대학에서 ‘통계적 사고’ 그리고 ‘생활 속의 통계’라는 과목으로 강좌가 오랫동안 유지되어 왔었다. 그러나 2020년도부터 두 과목을 폐지하고 새로운 시대에 맞춰 ‘빅데이터와 통계학’ 이란 하나의 강좌를 학부대학에서 새롭게 개설한다. 이 과목과 강의를 위해 본서를 집필하였다.
본서에서는 빅데이터 분석에 역점을 두지만, 빅데이터를 처리할 수 있는 고가의 슈퍼 컴퓨터를 사용하지 않는다. 오히려 학부생들이 집에서 보유하고 있는 가장 일반적인 개인 컴퓨터 사용을 기반으로 한다. 그리고 비싼 사용료를 지불해야 하는 통계소프트웨어를 사용하지 않고 가장 일반적인 개인 컴퓨터에 내장되어 있거나 따로 사용료를 지불하지 않아도 되는 마이크로 엑셀을 사용하면서 학습하는 것을 목표로 한다.
Contents
Chapter 01 빅데이터를 지배하는 통계학
통계학자가 되려는 10가지 이유
1.1 빅데이터
1.2 빅데이터 통계분석
1.3 빅데이터를 지배하는 통계학
1.4 빅데이터를 분석하는 소프트웨어
참고문헌
Chapter 02 엑셀을 이용한 통계량 계산 및 그래프 작성
그리스 알파벳
2.1 데이터 세트 설정과 함수변환
2.2 외부 데이터 불러오기와 데이터 변형
(1) 텍스트 파일 불러오기
(2) 행/열 바꾸기
2.3 기술통계량 구하기
2.4 피벗 테이블 작성
2.5 분할표와 그래프 작성
(1) 히스토그램
(2) 파이차트
(3) 꺾은선 그래프
(4) 상자 수염 그림
2.6 자료다운방법
(1) 마이크로데이터 통합서비스
(2) 교통사고분석시스템
(3) 공공데이터포털
분석과제
Chapter 03 빅데이터 요약과 통계 분석: 분할표와 그래프 작성
3.1 타이태닉호 사망자 자료 분석
(1) 데이터 변환
(2) 피벗 테이블 만들기
(3) 피벗 테이블을 이용하여 히스토그램 작성
(4) 피벗 테이블을 이용하여 파이차트 작성
3.1 분석 과제
3.2 지하철 4호선 자료 분석
(1) 요일별 승차인원 자료 분석
(2) 요일별 승차인원 자료요약과 그림 작성
(3) 평일과 주말의 승차인원 자료 분석과 그림 작성
(4) 시간대별 승차인원 자료분석과 그림 작성
(5) 승하차 인원 상ㆍ하위 다섯 개 역 비교 분석
(5.1) 지하철 4호선의 각 역별 승하차 인원 합계 데이터 설정
(5.2) 지하철 4호선의 각 역별 승하차 인원 합계 데이터 분석
3.2 분석 과제
3.3 교통사고 자료 분석
(1) 요일별 교통사고건수 비교
(2) 시간대별 교통사고건수 비교
(3) 요일별 시간대별 사고건수대비 사망률 비교
(4) 가해운전자 차종별 시간대별 사고건수대비 사망률 비교
(5) 계절별 교통사고건수 및 사고건수대비 사망률 비교
(6) 시도별 교통사고건수 및 사망자수 비교
(6.1) 시도별 인구 10만 명당 교통사고건수 및 사망자 비교
(6.2) 시도별 자동차 1만 대당 교통사고건수 및 사망자 비교
3.3 분석 과제
Chapter 04 확률분포함수
4.1 이산형 확률분포
(1) 이항분포
(2) 포아송분포
4.2 연속형 확률분포
(1) 정규분포
(2) 지수분포
4.3 확률분포들간의 관계
(1) 이항분포와 포아송분포의 관계
(2) 이항분포의 정규 근사
분석 과제
Chapter 05 확률모의실험
5.1 난수 추출
(1) 균일분포
(2) 이항분포
(3) 정규분포
5.2 표본추출방법: 단순무작위추출법
5.3 대수의 법칙: 표본평균의 성질
5.4 중심 극한 정리: 표본평균의 분포
분석 과제
Chapter 06 빅데이터분석을 위한 통계방법1: 상관분석과 회귀분석
6.0 상관분석과 회귀분석 설명
(1) 상관분석
(2) 회귀분석
6.1 도시별 복지기능 특성자료
(1) 데이터 설명
(2) 변수간 상관분석을 통한 관계 파악
(3) 변수간 산점도를 통한 관계 파악
6.2 국내 상위기업 재무자료
(1) 데이터 설명
(2) 변수간 상관분석을 통한 관계 파악
(3) 변수간 산점도를 통한 관계 파악
6.3 도시별 사회경제적 현상
(1) 데이터 설명
(2) 변수간 상관분석을 통한 관계 파악
(3) 변수간 산점도를 통한 관계 파악
6.4 남자 국제 육상 기록
(1) 데이터 설명
(2) 변수간 상관분석을 통한 관계 파악
(3) 단거리 평균과 장거리 평균의 산점도를 통한 관계 파악
6.5 미국 50개 주의 폭행 체포와 살인 체포
(1) 데이터 설명
(2) 변수간 상관분석을 통한 관계 파악
(3) 변수간 산점도를 통한 관계 파악
6.1 분석 과제
6.2 분석 과제
6.3 분석 과제
Chapter 07 빅데이터분석을 위한 통계방법2: 인자분석, 주성분분석, 군집분석
7.0 주성분분석, 인자분석, 군집분석 설명
(1) 주성분분석
(2) 인자분석
(3) 군집분석
7.1 도시별 복지기능 특성자료
(1) 데이터 설명
(2) 변수간 상관분석을 통한 관계 파악
(3) 데이터 표준화와 상관분석
(4) 사회복지기능 평균과 문화시설의 산점도
7.2 국내 상위기업 재무자료
(1) 데이터 설명
(2) 그룹별 변수간 상관분석을 통한 관계 파악
(3) 전체 변수 간 상관분석을 통한 관계 파악
(4) 주식(Capital_stock) 변수와 재무 평균 변수의 산점도
7.3 도시별 사회경제적 현상
(1) 데이터 설명
(2) 변수간 상관분석을 통한 관계 파악
(3) 평균주택가격과 그 외 사회현상에 대한 산점도
7.4 미국 50개 주의 폭행 체포와 살인 체포
(1) 데이터 설명
(2) 변수간 상관분석을 통한 관계 파악
(3) 살인체포와 강간체포의 산점도
7.5 파산한 기업과 건실한 기업의 재무조사
(1) 데이터 설명
(2) 변수간 상관분석을 통한 관계 파악
(3) 기업 자산 평균과 유동자산/순매출에 대한 산점도
7.6 성적에 따른 대학원 입학여부
(1) 데이터 설명
(2) GPA와 GMAT에 대한 산점도
분석 과제