데이터 분석 역량은 분야를 막론하고 경쟁력을 갖추는 데 필수가 되어가고 있다. 이 책은 SQL 데이터 분석이 익숙하지 않은 초급자와 더 나은 쿼리 및 분석 방법을 찾는 SQL 숙련자 모두를 위한 가이드다. 분석에 앞서 데이터를 준비하는 과정부터 실무에서 가장 활용도 높은 시계열, 코호트, 리텐션 분석 등 다양한 분석법을 알려준다. 실제 데이터셋을 사용해 흥미로운 예제를 실습해보며 실전에 가까운 분석 경험을 쌓아보자.
Contents
CHAPTER 1 SQL을 활용한 분석
1.1 데이터 분석이란
1.2 SQL을 사용하는 이유
1.3 데이터베이스 타입과 활용법
1.4 결론
CHAPTER 2 데이터 준비
2.1 데이터 타입
2.2 SQL 쿼리 구조
2.3 프로파일링: 데이터 분포
2.4 프로파일링: 데이터 품질
2.5 준비: 데이터 정제
2.6 준비: 데이터 셰이핑
2.7 결론
CHAPTER 3 시계열 분석
3.1 날짜 및 시간 데이터 조작
3.2 데이터셋: 소매업 매출
3.3 데이터 트렌드 분석
3.4 시간 윈도우 롤링
3.5 계절성 분석
3.6 결론
CHAPTER 4 코호트 분석
4.1 코호트
4.2 데이터셋: 미국 의회 입법가
4.3 리텐션
4.4 관련 코호트 분석
4.5 코호트를 활용한 크로스 섹션 분석
4.6 결론
CHAPTER 5 텍스트 분석
5.1 SQL을 활용한 텍스트 분석
5.2 데이터셋: UFO 목격 보고
5.3 텍스트 특징
5.4 텍스트 파싱
5.5 텍스트 변환
5.6 대규모 텍스트에서 문자열 찾기
5.7 텍스트 구성과 형태 변환
5.8 결론
CHAPTER 6 이상 탐지
6.1 SQL을 활용한 이상 탐지
6.2 데이터셋: 지진 발생 기록
6.3 아웃라이어 탐지
6.4 이상값의 형태
6.5 이상값 처리
6.6 결론
CHAPTER 7 실험 분석
7.1 SQL을 활용한 실험 분석
7.2 데이터셋: 모바일 게임 사용자
7.3 실험 유형
7.4 실험의 어려움과 문제 해결 방법
7.5 대체 분석 방법
7.6 결론
CHAPTER 8 복잡한 데이터셋 생성
8.1 SQL로 복잡한 데이터셋 생성하기
8.2 코드 구성
8.3 쿼리 실행 순서 구성
8.4 데이터셋 크기 및 프라이버시 관리
8.5 결론
CHAPTER 9 결론
9.1 퍼널 분석
9.2 이탈, 휴면의 정의
9.3 장바구니 분석
9.4 참고 자료
9.5 마치며
Author
캐시 타니무라,박상근
20여 년간 금융 분야부터 B2B 소프트웨어, 소비자 서비스에 이르는 다양한 산업 분야에서 데이터를 분석했다. 대부분의 상용 및 오픈 소스 데이터베이스에서 SQL로 데이터를 분석한 경험이 있으며 여러 주요 기술 회사에서 데이터 팀과 데이터 인프라를 구축하고 관리했다. 또한 여러 콘퍼런스에서 데이터 문화 구축, 데이터 기반 제품 개발, 포괄적인 데이터 분석 등을 주제로 강연하고 있다.
20여 년간 금융 분야부터 B2B 소프트웨어, 소비자 서비스에 이르는 다양한 산업 분야에서 데이터를 분석했다. 대부분의 상용 및 오픈 소스 데이터베이스에서 SQL로 데이터를 분석한 경험이 있으며 여러 주요 기술 회사에서 데이터 팀과 데이터 인프라를 구축하고 관리했다. 또한 여러 콘퍼런스에서 데이터 문화 구축, 데이터 기반 제품 개발, 포괄적인 데이터 분석 등을 주제로 강연하고 있다.