더 늦기 전에 R로 시작하는 데이터 분석 내가 매일 엑셀로 정리하고 있는 이 업무가 데이터 분석이었다고?
데이터 분석이 뭔지는 정확히 몰라도 지금 당신이 회사에서 하고 있는 그 업무, 그게 바로 데이터 분석이다. 어려울 것 같아 미루고 미뤘던 R. 내가 업무에서 사용하는 데이터를 바로 적용할 수 있게 저자가 실제 업무 데이터와 유사하게 만든 데이터로 실습한다. 데이터와 함께 벼랑 끝에 몰렸다는 느낌이 자꾸 든다면 이제는 진짜 R로 분석해야 할 때다.
Contents
Chapter 01 데이터 분석의 이해
_1.1 데이터는 무엇일까요?
_1.2 데이터와 개발
_1.3 데이터 분석
_1.4 데이터 분석 도구
__1.4.1 SQL
__1.4.2 엑셀
__1.4.3 R
_1.5 디지털 트랜스포메이션과 인공지능
Chapter 02 데이터 분석 준비하기
_2.1 R 설치
_2.2 RStudio 설치
_2.3 R과 RStudio 실행
__2.3.1 RStudio 화면 설정
_2.4 기본 명령어와 규칙
__2.4.1 =을 활용한 저장
__2.4.2 따옴표를 활용한 문자 표현
__2.4.3 c() 함수로 값 나열
__2.4.4 다양한 문자열과 수열
__2.4.5 문자 관련 함수
__2.4.6 인덱스를 활용한 부분 선택
__2.4.7 공백과 주석 처리
_2.5 실습 데이터 소개
_2.6 실습자료 다운로드
_2.7 패키지 설치
_2.8 함수 도움말 확인
Chapter 03 데이터 불러와서 살펴보기
_3.1 CSV 파일 불러오기
_3.2 XLSX 파일 불러오기
_3.3 데이터 살펴보기
__3.3.1 View() 함수
__3.3.2 head(), tail() 함수
__3.3.3 names() 함수
__3.3.4 dim(), nrow(), ncol() 함수
_3.4 데이터 결합하기
__3.4.1 rbind() 함수
__3.4.2 merge() 함수
Chapter 04 패키지를 활용한 요약과 시각화
_4.1 실습 데이터 불러오기
__4.1.1 결제 내역 데이터
__4.1.2 고객 상세 데이터
__4.1.3 가맹점 상세 데이터
_4.2 magrittr 패키지의 %〉%
_4.3 tibble 패키지의 tibble() 함수
_4.4 dplyr 패키지의 함수
__4.4.1 summarise() 함수를 활용한 요약값 계산
__4.4.2 filter() 함수를 활용한 부분 관측치 선택
__4.4.3 group_by() 함수를 활용한 그룹별 처리와 요약
__4.4.4 arrange() 함수를 활용한 관측치 정렬
__4.4.5 파이프라인의 순서
_4.5 ggplot2 패키지를 활용한 시각화
__4.5.1 수치형 변수의 히스토그램과 상자그림
__4.5.2 범주형 변수의 막대그래프
Chapter 05 다양한 데이터 요약과 시각화
_5.1 변수를 몇 개만 보거나 숨기고 싶어요
_5.2 연령대 변수를 만들어서 분석하고 싶어요
_5.3 비어 있는 결측치를 채우고 싶어요
_5.4 다양한 조건으로 그룹 변수를 만들어볼까요?
_5.5 고객별로 결제 금액이 가장 큰 업종을 찾고 싶어요
__5.5.1 고객별 최근 결제 건을 찾고 싶어요
__5.5.2 업종별로 매출액이 가장 높은 가맹점을 찾고 싶어요
_5.6 업종별로 돈을 제일 많이 쓴 고객을 살펴봅시다
_5.7 결제 금액이 가장 큰 고객의 정보를 확인하고 싶어요
_5.8 주소를 쪼개서 지역별로 분석해봅시다
__5.8.1 n번째 글자를 추출하고 싶어요
__5.8.2 공백을 기준으로 주소를 나누고 싶어요
__5.8.3 일부 문자만 추출하고 싶어요
_5.9 1, 2 대신 남, 여로 바꿔야 이해하기 편합니다
_5.10 그룹에 따라 결제 금액 분포가 어떻게 다를까요?
_5.11 두 개 그룹을 활용한 요약을 그래프로 표현해봅시다
_5.12 연령대별 선호 업종을 찾고 히트맵으로 표현해봅시다
_5.13 일별 매출 추이를 그리고 요일별로 분석합시다
__5.13.1 날짜와 시간을 표현해봅시다
_5.14 가맹점의 매출 건수와 매출 금액의 관계를 살펴봅시다
_5.15 관측치를 나눠서 그래프를 그리면 뭔가 보입니다
_5.16 밥 먹고 두 시간 안에 어떤 업종에서 결제를 많이 할까요?
__5.16.1 고객 실적을 구분해봅시다
__5.16.2 식후 두 시간 안에 어떤 가게를 많이 이용할까요?
Chapter 06 분석 결과 공유하기
_6.1 CSV 파일로 데이터 내보내기
_6.2 이미지 파일로 그래프 내보내기
부록
_A.1 데이터베이스와 SQL에 관한 간단한 설명
_A.2 RStudio의 프로젝트 기능 활용
_A.3 tidyr 패키지를 활용한 전처리
__A.3.1 complete()를 활용한 조합 생성
__A.3.2 replace_na()와 fill()을 활용한 결측치 대체
__A.3.3 spread()와 gather()를 활용한 형태 변환
_A.4 파이프 연산자의 추가적인 활용
_A.5 ggplot2 패키지의 주요 그래프 속성 변경 함수
__A.5.1 qplot()을 활용한 단순한 그래프 작성
__A.5.2 reorder()를 활용한 범주형 축의 수준 순서 변경
__A.5.3 축 바꾸기
__A.5.4 수치형 축의 척도, 이름, 범위 지정하기
__A.5.5 색상 조합 바꾸기
__A.5.6 그래프에 제목 달기
__A.5.7 그래프 테마 변경하기
__A.5.8 그래프 폰트 설정하기
_A.6 간단한 정규 표현식
__A.6.1 grep()과 grepl()을 활용한 문자열에서 패턴 찾기
__A.6.2 정규표현식의 활용
__A.6.3 gsub()를 활용한 찾아 바꾸기와 부분 추출
_A.7 변수 형식
__A.7.1 변수 형식 확인
__A.7.2 변수 형식 변환
Author
임경덕
통계를 믿는 데이터 분석가. 통계를 가르치는 강사. 이제 첫 통계 책을 쓴 작가. 고려대학교 통계학과 학부, 대학원을 졸업하고 삼성카드에서 잠깐 근무했다. 이후 패스트캠퍼스에서 ‘R을 활용한 데이터 분석’을 강 의하며, 종종 데이터 분석 프로젝트에 참여하고 있다. 데이터 분석은 통계를 이해하는 것부터 시작된다고 믿고 있고, 더 많은 사람이 더 쉽게 통계를 이해하고 활용할 수 있게 하는 데 관 심이 많다.
통계를 믿는 데이터 분석가. 통계를 가르치는 강사. 이제 첫 통계 책을 쓴 작가. 고려대학교 통계학과 학부, 대학원을 졸업하고 삼성카드에서 잠깐 근무했다. 이후 패스트캠퍼스에서 ‘R을 활용한 데이터 분석’을 강 의하며, 종종 데이터 분석 프로젝트에 참여하고 있다. 데이터 분석은 통계를 이해하는 것부터 시작된다고 믿고 있고, 더 많은 사람이 더 쉽게 통계를 이해하고 활용할 수 있게 하는 데 관 심이 많다.