이 책은 독학으로 R 데이터 분석을 배우는 입문자가 ‘꼭 필요한 내용을 제대로’ 학습할 수 있도록 구성했다. ‘무엇을’, ‘어떻게’ 학습해야 할지조차 모르는 입문자의 막연한 마음을 살펴, 과외 선생님이 알려주듯 친절하게, 그러나 핵심적인 내용만 콕콕 집어준다. 책의 첫 페이지를 펼쳐서 마지막 페이지를 덮을 때까지, 혼자서도 충분히 데이터 분석을 배울 수 있다는 자신감과 확신이 계속될 것이다!
30명의 베타리더 검증, ‘함께 만든’ 입문자 맞춤형 도서로 30명의 베타리더와 함께 구성하여 입문자에게 맞는 난이도, 분량, 학습 요소 등을 적극 반영했다. 어려운 용어와 개념은 한 번 더 풀어쓰고, 복잡한 설명은 눈에 잘 들어오는 그림으로 풀어냈다. ‘혼자 공부해 본’ 여러 입문자의 초심과 눈높이가 책 곳곳에 반영된 것이 이 책의 가장 큰 장점이다.
Contents
Chapter 01 빅데이터와 R
: R 언어를 소개하고 데이터 분석에서 왜 R 언어를 사용하는지 알아봅니다.
01-1 빅데이터와 R 언어
__빅데이터 시대
__R 언어를 소개합니다
__R의 장단점
[3가지 키워드로 정리하는 핵심 포인트]
[확인문제]
01-2 개발 환경 설치
__R 설치 파일 다운로드하기
__R 설치하기
__R 실행하기
__R 스튜디오 설치 파일 다운로드하기
__R 스튜디오 설치하기
[좀 더 알아보기] R 스튜디오 클라우드
[4가지 키워드로 정리하는 핵심 포인트]
[확인문제]
01-3 R 스튜디오 인터페이스와 환경 설정
__R 스튜디오 인터페이스
__환경 설정하기
__필수 작업 환경 설정하기
__스크립트 생성 및 저장하기
__코드 실행하기
[좀 더 알아보기] 도움말 사용하기
[5가지 키워드로 정리하는 핵심 포인트]
[확인문제]
Chapter 02 데이터 분석을 위한 기본 다지기
: 데이터 분석 과정을 알아보고 데이터란 무엇인지 살펴봅니다.
02-1 데이터 분석 과정
__1단계: 데이터 분석 설계하기
__2단계: 데이터 준비하기
__3단계: 데이터 가공하기
__4단계: 데이터 분석하기
__5단계: 결론 도출하기
[5가지 키워드로 정리하는 핵심 포인트]
[확인문제]
02-2 데이터의 생김새
__데이터 구조 간 관계 및 데이터 유형
__벡터
__범주형 자료
__행렬과 배열
__리스트와 데이터 프레임
[6가지 키워드로 정리하는 핵심 포인트]
[확인문제]
Chapter 03 R 프로그래밍 익히기
: R 프로그래밍 기본 문법을 알아봅니다.
03-1 변수와 함수
__변수 만들기
__함수 호출하기
__내장 함수 사용하기
__사용자 정의 함수 만들기
__return( ) 함수를 사용하는 이유
[5가지 키워드로 정리하는 핵심 포인트]
[확인문제]
03-2 패키지
__패키지 설치하기
__설치한 패키지 확인하기
__패키지 로드하기
__패키지 삭제하기
__주요 패키지 활용하기
[좀 더 알아보기] 필요한 패키지 찾아보기
[4가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수]
[확인문제]
03-3 조건문과 반복문
__연산자
__if-else 조건문
__반복문
[좀 더 알아보기] R 코드 오류 해결하기
[6가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수]
[확인문제]
Chapter 04 데이터 다루기
: 데이터를 수집하고 관측하고 탐색하여 데이터 특성을 파악하는 방법을 알아봅니다.
04-1 데이터 수집하기
__직접 데이터 입력하기
__외부 데이터 가져오기: TXT 파일
__외부 데이터 가져오기: CSV 파일
__외부 데이터 가져오기: 엑셀 파일
__외부 데이터 가져오기: XML, JSON 파일
[4가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수]
[확인문제]
04-2 데이터 관측하기
__데이터 전체 확인하기
__데이터 요약 확인하기
__기술통계량 확인하기
__데이터 빈도분석하기
[6가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수]
[확인문제]
04-3 데이터 탐색하기
__막대 그래프 그리기
__상자 그림 그리기
__히스토그램 그리기
__파이차트 그리기
__줄기 잎 그림 그리기
__산점도 그리기
[6가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수]
[확인문제]
Chapter 05 데이터 가공하기
: 데이터 분석이 수월하도록 데이터를 추출하고 정렬하거나 구조를 변형해 봅니다.
05-1 dplyr 패키지
__dplyr 패키지 설치 및 로드하기
__데이터 추출 및 정렬하기
__데이터 추가 및 중복 데이터 제거하기
__데이터 요약 및 샘플 추출하기
__파이프 연산자: %〉%
[2가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수]
[확인문제]
05-2 데이터 가공하기
__필요한 데이터 추출하기
__데이터 정렬하기
__데이터 요약하기
__데이터 결합하기
[4가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수]
[확인문제]
05-3 데이터 구조 변형하기
__넓은 모양 데이터를 긴 모양으로 바꾸기: melt( ) 함수
__긴 모양 데이터를 넓은 모양으로 바꾸기: cast( ) 함수
[좀 더 알아보기] cast( ) 함수로 데이터 요약하기
[2가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수]
[확인문제]
05-4 데이터 정제하기
__결측치 확인하기
__결측치 제외하기
__결측치 개수 확인하기
__결측치 제거하기
__결측치 대체하기
__이상치 확인하기
__이상치 처리하기
[3가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수]
[확인문제]
Chapter 06 데이터 시각화: ggplot2 패키지
: 데이터 시각화의 꽃, ggplot2 패키지를 활용하여 그래프를 그려봅니다.
06-1 그래프 그리기
__그래프 기본 틀 만들기: ggplot( ) 함수
__산점도 그리기: geom_point( ) 함수
__선 그래프 그리기: geom_line( ) 함수
__막대 그래프 그리기: geom_bar( ) 함수
__상자 그림 그리기: geom_boxplot( ) 함수
__히스토그램 그리기: geom_histogram( ) 함수
[좀 더 알아보기1] 연산자로 이어진 코드 줄 바꿈하기
[좀 더 알아보기2] 그래프에 그래프 더하기
[3가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수]
[확인문제]
06-2 그래프에 객체 추가하기
__사선 그리기: geom_abline( ) 함수
__평행선 그리기: geom_hline( ) 함수
__수직선 그리기: geom_vline( ) 함수
__레이블 입력하기: geom_text( ) 함수
__도형 및 화살표 넣기: annotate( ) 함수
[좀 더 알아보기1] 그래프와 축에 제목 추가하고 디자인 테마 적용하기
[좀 더 알아보기2] 절편과 기울기 구하기: 회귀분석
[3가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수]
[확인문제]
06-3 지도 시각화: ggmap 패키지
__구글 지도 API 키 발급받기
__ggmap 패키지로 구글 지도 활용하기
[3가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수]
[확인문제]
Chapter 07 프로젝트로 실력 다지기
: 앞에서 배운 내용을 바탕으로 공공 데이터를 직접 분석해 봅니다.
07-1 지역별 국내 휴양림 분포 비교하기
__데이터 수집: 전국 휴양림 표준 데이터 다운로드하기
__데이터 가공: 엑셀로 전처리하기
__데이터 분석: 빈도분석하고 시각화하기
[분석 단계로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수]
[확인문제]
07-2 해외 입국자 추이 확인하기
__데이터 수집: 입국 통계 데이터 다운로드하기
__데이터 가공(1): 엑셀로 전처리하기
__데이터 가공(2): 데이터 재구조화하기
__데이터 분석: 시각화하기
[분석 단계로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수]
[확인문제]
07-3 지도에서 코로나19 선별진료소 위치 확인하기
__데이터 수집: 코로나19 선별진료소 위치 정보 다운로드하기
__데이터 가공: 필요한 데이터 추출하기
__데이터 분석(1): 빈도분석하기
__데이터 분석(2): 지도 시각화하기
[분석 단계로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수]
[확인문제]
07-4 서울시 지역별 미세먼지 농도 차이 비교하기
__데이터 수집: 서울시 일별 미세먼지 데이터 다운로드하기
__데이터 가공(1): 엑셀로 전처리하기
__데이터 가공(2): 필요한 데이터 추출하기
__데이터 분석(1): 데이터 탐색하고 시각화하기
__데이터 분석(2): 가설 검정하기
[좀 더 알아보기] 세 개 이상의 집단 간 평균 차이 검정하기: 분산분석
[분석 단계로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수]
[확인문제]
Chapter 08 데이터 분석 보고서 공유하기
: 데이터 분석 결과를 효과적으로 공유할 수 있는 방법을 알아봅니다.
08-1 RPubs로 데이터 분석 결과 공유하기
__R 마크다운 문서 만들기
__R 마크다운 문서 미리보기
__R 마크다운 문서 저장 형식 변경하기
__RPubs에 배포하기
[좀 더 알아보기] R 마크다운 문법
[4가지 키워드로 정리하는 핵심 포인트]
[확인문제]
08-2 샤이니로 인터랙티브 웹 앱 만들기
__샤이니 파일 생성하기
__샤이니 앱 구조 살펴보기
__샤이니 앱 배포하기
__input 컨트롤 위젯
[4가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수]
[확인문제]
부록 A 데이터 분석 툴 소개
정답 및 해설
찾아보기
Author
강전희,엄동란
컴퓨터공학과 인공지능을 공부했으며, 게임 회사를 거쳐 현재 TVING에 재직 중입니다. AI, 빅데이터, 정보 보안, 온갖 Gadget과 업무 자동화 등에 관심이 많습니다. 국내 최초로 MCN 사업인 DIA TV를 런칭한 경험을 바탕으로 사업 개발, 광고 영업, 광고 데이터 분석을 해왔으며 현재 클라우드 엔지니어로 일하고 있습니다. 네이버 클라우드 플랫폼 마스터와 국내 최대 클라우드 자격증 커뮤니티인 ‘IT 다 봐요’에서 부운영자로 활동하고 있으며, 클라우드 기술과 정보 공유를 위해 노력하고 있습니다.
컴퓨터공학과 인공지능을 공부했으며, 게임 회사를 거쳐 현재 TVING에 재직 중입니다. AI, 빅데이터, 정보 보안, 온갖 Gadget과 업무 자동화 등에 관심이 많습니다. 국내 최초로 MCN 사업인 DIA TV를 런칭한 경험을 바탕으로 사업 개발, 광고 영업, 광고 데이터 분석을 해왔으며 현재 클라우드 엔지니어로 일하고 있습니다. 네이버 클라우드 플랫폼 마스터와 국내 최대 클라우드 자격증 커뮤니티인 ‘IT 다 봐요’에서 부운영자로 활동하고 있으며, 클라우드 기술과 정보 공유를 위해 노력하고 있습니다.