데이터 마이닝 개념과 기법 4/e

빅데이터에 숨겨진 패턴과 인사이트 발견의 방법
$62.37
SKU
9791161759647
+ Wish
[Free shipping over $100]

Standard Shipping estimated by Wed 03/12 - Tue 03/18 (주문일로부 10-14 영업일)

Express Shipping estimated by Fri 03/7 - Tue 03/11 (주문일로부 7-9 영업일)

* 안내되는 배송 완료 예상일은 유통사/배송사의 상황에 따라 예고 없이 변동될 수 있습니다.
Publication Date 2025/01/31
Pages/Weight/Size 188*235*44mm
ISBN 9791161759647
Categories IT 모바일 > OS/데이터베이스
Description
종합적인 학문 및 기술 분야로서 데이터 마이닝의 특징을 소개하며, 정보 기술의 진화와 데이터 마이닝의 필요성, 그리고 응용 분야의 중요성에 대해 설명한다. 먼저, 데이터 마이닝을 위한 다양한 유형의 데이터 타입에 대해 알아보고, 데이터 마이닝 작업의 주요 유형과 마이닝 지식의 종류, 사용되는 기술의 종류, 그리고 분석 환경에 따라 활용되는 다양한 기법에 대해 설명한다.
Contents
1장. 데이터 마이닝 개요

1.1 데이터 마이닝이란?
1.2 데이터 마이닝: 지식 발견의 핵심 절차
1.3 데이터 타입의 다양성
1.4 다양한 지식 유형의 마이닝
1.4.1 다차원 데이터의 요약 기법
1.4.2 빈발 패턴, 연관성, 상관관계 마이닝
1.4.3 예측적 분석을 위한 분류와 회귀 분석
1.4.4 클러스터 분석
1.4.5 딥러닝
1.4.6 이상점 분석
1.4.7 데이터 마이닝 결과의 유의미성
1.5 데이터 마이닝: 다양한 학문의 융합
1.5.1 데이터와 통계학
1.5.2 머신러닝과 데이터 마이닝
1.5.3 데이터베이스와 데이터 마이닝
1.5.4 데이터 과학과 데이터 마이닝
1.5.5 다른 학문과 데이터 마이닝
1.6 데이터 마이닝과 응용 분야
1.7 데이터 마이닝과 사회과학
1.8 정리
1.9 연습 문제
1.10 참고 자료

2장. 데이터, 측정, 전처리

2.1 데이터 타입
2.1.1 명목형 데이터
2.1.2 이진 데이터
2.1.3 서수형 데이터
2.1.4 수치형 데이터
2.1.5 이산형 및 연속형 데이터
2.2 데이터 분석을 위한 통계의 주요 개념
2.2.1 중심화 경향의 측정
2.2.2 분산화 수준의 측정
2.2.3 공분산과 상관관계
2.2.4 통계적 분석 결과의 시각화
2.3 유사성과 비유사성 측정
2.3.1 데이터 행렬과 비유사성 행렬
2.3.2 명목형 데이터의 확률 측정
2.3.3 이진 데이터의 확률 측정
2.3.4 수치형 데이터의 비유사성: 민코프스키 거리
2.3.5 서수형 데이터의 확률 측정
2.3.6 혼합 데이터 타입의 비유사성 측정
2.3.7 코사인 유사성
2.3.8 유사성 분포도 측정: KL 발산
2.3.9 유사성을 이용한 패턴 발견
2.4 전처리: 데이터 품질 개선을 위한 정련, 통합
2.4.1 데이터 품질 측정
2.4.2 데이터 정련 기법
2.4.3 데이터 통합 기법
2.5 데이터 변환
2.5.1 데이터 정규화
2.5.2 데이터 이산화
2.5.3 데이터 압축
2.5.4 데이터 표본 추출
2.6 복잡한 데이터의 차원 축소 기법
2.6.1 PCA 기법
2.6.2 속성 하위 집합 선택 기법
2.6.3 비선형 차원 축소 기법
2.7 정리
2.8 연습 문제
2.9 참고 자료

3장. 데이터 웨어하우스와 OLAP

3.1 데이터 웨어하우스
3.1.1 데이터 웨어하우스란?
3.1.2 데이터 웨어하우스 아키텍처: 기업용 데이터 웨어하우스 및 데이터 마트
3.1.3 데이터 레이크
3.2 데이터 웨어하우스 구현: 스키마와 측정 기법
3.2.1 데이터 큐브: 다차원 데이터 모델
3.2.2 다차원 데이터 스키마: 스타, 스노플레이크, 팩트 컨스텔레이션
3.2.3 개념 계층 구조
3.2.4 측정: 카테고리화 및 연산
3.3 OLAP 연산
3.3.1 전형적인 OLAP 연산
3.3.2 OLAP 데이터 인덱싱: 비트맵 인덱싱 및 조인 인덱싱
3.3.3 스토리지 구현: 칼럼 기반 데이터베이스
3.4 데이터 큐브 연산
3.4.1 데이터 큐브 연산의 주요 용어
3.4.2 데이터 큐브 구현: 아이디어
3.4.3 OLAP 서버 아키텍처: ROLAP, MOLAP, HOLAP 비교
3.4.4 데이터 큐브 연산의 검증된 전략
3.5 데이터 큐브 연산 기법
3.5.1 MultiWay - 전체 큐브에 대한 다방향 배열 집계
3.5.2 BUC: 꼭지점 큐보이드에서 하향 아이스버그 큐브 계산하기
3.5.3 셸 프래그먼트: 고차원 OLAP에 대한 사전 연산
3.5.4 큐보이드를 이용한 OLAP 쿼리 효율성 개선
3.6 정리
3.7 연습 문제
3.8 참고 문헌

4장. 패턴 마이닝의 개념과 기법

4.1 빈발 패턴의 기본 개념
4.1.1 마켓 바스켓 분석
4.1.2 빈발 아이템셋, 닫힌 아이템셋, 연관 규칙
4.2 빈발 아이템셋 마이닝 기법
4.2.1 Apriori 알고리듬: 제한된 후보 생성을 통한 빈발 아이템셋 탐색
4.2.2 빈발 아이템을 통한 연관 규칙 생성
4.2.3 Apriori의 효율성 개선
4.2.4 빈발 아이템셋 마이닝을 위한 FP-growth 기법
4.2.5 수직적 데이터 형식을 이용한 빈발 아이템셋 마이닝
4.2.6 닫힌 패턴 및 최대 패턴 마이닝
4.3 패턴 검증: 패턴의 유용성 평가
4.3.1 강한 규칙이 항상 유용한 것은 아니다
4.3.2 상관관계 분석을 위한 연관성 분석
4.3.3 패턴 검증 방식 비교
4.4 정리
4.5 연습 문제
4.6 참고 문헌

5장. 패턴 마이닝: 고급 기법

5.1 다양한 패턴의 마이닝 기법
5.1.1 다수준 연관 규칙 마이닝
5.1.2 다차원 연관 규칙 마이닝
5.1.3 양적 연관 규칙 마이닝
5.1.4 고차원 데이터 마이닝
5.1.5 희귀 패턴 및 부정적 패턴 마이닝
5.2 압축 패턴 또는 근사 패턴 마이닝
5.2.1 패턴 클러스터링 기반의 압축 패턴 마이닝
5.2.2 중복성을 고려한 상위 k 패턴 마이닝
5.3 제약 조건 기반 패턴 마이닝
5.3.1 제약 조건 기반 패턴 공간 가지치기
5.3.2 제약 조건 기반의 데이터 공간 가지치기
5.3.3 간결성 조건 기반의 마이닝 공간 가지치기
5.4 순차적 패턴 마이닝
5.4.1 순차적 패턴 마이닝: 개념과 원리
5.4.2 순차적 패턴 마이닝 기법의 확장
5.4.3 제약 조건 기반 순차적 패턴 마이닝
5.5 서브그래프 패턴 마이닝
5.5.1 빈발 서브그래프 마이닝 기법
5.5.2 다양성 기반 및 제약 조건 기반 서브그래프 마이닝
5.6 패턴 마이닝 사례 분석
5.6.1 대규모 텍스트 데이터의 구 마이닝
5.6.2 소프트웨어의 복사 및 붙여넣기 오류 마이닝
5.7 정리
5.8 연습 문제
5.9 참고 자료

6장. 분류: 기본 개념과 기법

6.1 분류의 기본 개념
6.1.1 분류의 정의
6.1.2 기본적인 분류 기법
6.2 분류 모델: 의사결정 트리
6.2.1 의사결정 트리 모델 개요
6.2.2 속성 선택 척도
6.2.3 의사결정 트리 가지치기
6.3 베이즈 분류 기법
6.3.1 베이즈 정리
6.3.2 나이브 베이즈 분류기
6.4 레이지 러너
6.4.1 KNN 분류기
6.4.2 사례 기반 추론
6.5 선형 분류기
6.5.1 선형 회귀
6.5.2 퍼셉트론: 선형 회귀의 분류 변환
6.5.3 로지스틱 회귀
6.6 모델 평가 및 선택
6.6.1 분류 모델 성능 평가 지표
6.6.2 홀드아웃 기법 및 랜덤 서브샘플링
6.6.3 교차 평가 기법
6.6.4 부트스트랩
6.6.5 모델 선택을 위한 통계적 유의성 검정
6.6.6 비용-이익 및 ROC 커브를 이용한 분류기 성능 비교
6.7 분류 정확도 개선 방법
6.7.1 앙상블 기법 개요
6.7.2 배깅
6.7.3 부스팅
6.7.4 랜덤 포레스트
6.7.5 클래스 불균형 데이터의 분류 정확도 개선
6.8 정리
6.9 연습 문제
6.10 참고 문헌

7장. 분류의 고급 기법

7.1 특성치 선택, 특성치 구성
7.1.2 래퍼 기법
7.1.3 임베디드 기법
7.2 베이즈 신뢰 네트워크
7.2.1 개념과 작동 원리
7.2.2 베이즈 신뢰 네트워크 훈련시키기
7.3 서포트 벡터 머신
7.3.1 선형 서포트 벡터 머신
7.3.2 비선형 서포트 벡터 머신
7.4 규칙 기반 분류, 패턴 기반 분류
7.4.1 IF-THEN 규칙 기반 분류
7.4.2 의사결정 트리에서 규칙 추출하기
7.4.3 순차적 커버링 알고리듬을 이용한 규칙 유추
7.4.4 연관 분류
7.4.5 차별적 빈발 패턴 기반 분류
7.5 약한 지도식 분류
7.5.1 반지도식 분류
7.5.2 액티브 러닝
7.5.3 전이 학습
7.5.4 원격 지도
7.5.5 제로샷 러닝
7.6 리치 데이터 타입의 분류
7.6.1 스트림 데이터 분류
7.6.2 시퀀스 데이터 분류
7.6.3 그래프 데이터 분류
7.7 최신의 분류 기법, 연관 기술
7.7.1 멀티클래스 분류
7.7.2 거리 지표 학습
7.7.3 분류의 의미 해석
7.7.4 유전적 알고리듬
7.7.5 강화 학습
7.8 정리
7.9 연습 문제
7.10 참고 문헌

8장. 클러스터링의 기본 개념과 주요 기법

8.1 클러스터 분석
8.1.1 클러스터 분석의 개요
8.1.2 클러스터링을 위한 요구 사항
8.1.3 기본적인 클러스터링 기법 개요
8.2 파티셔닝 클러스터링 기법
8.2.1 k-means: 중심 기반 클러스터링
8.2.2 k-means 변형 클러스터링 기법
8.3 계층적 클러스터링 기법
8.3.1 계층적 클러스터링의 기본 개념
8.3.2 병합식 계층적 클러스터링
8.3.3 분할식 계층적 클러스터링
8.3.4 BIRCH: 클러스터 피처 트리 기반의 계층적 클러스터링
8.3.5 확률식 계층적 클러스터링
8.4 밀도 기반 클러스터링과 그리드 기반 클러스터링
8.4.1 DBSCAN: 고밀도 연결 지역을 이용한 밀도 기반 클러스터링
8.4.2 DENCLUE: 밀도 분포 함수 기반 클러스터링
8.4.3 그리드 기반 클러스터링
8.5 클러스터링 성능 평가
8.5.1 클러스터링 경향 평가
8.5.2 클러스터의 수 결정 방식
8.5.3 클러스터링 품질 측정: 외연적 기법
8.5.4 내재적 기법
8.6 정리
8.7 연습 문제
8.8 참고 문헌

9장. 고급 클러스터링 기법

9.1 확률적 모델 기반 클러스터링
9.1.1 퍼지 클러스터
9.1.2 확률적 모델 기반 클러스터
9.1.3 기댓값 최대화 알고리듬
9.2 고차원 데이터에 대한 클러스터링
9.2.1 고차원 데이터에 대한 클러스터링이 어려운 이유
9.2.2 축 방향 하위 공간 접근법
9.2.3 임의 방향 하위 공간 접근법
9.3 바이클러스터링
9.3.1 바이클러스터링의 활용 방식
9.3.2 바이클러스터의 종류
9.3.3 바이클러스터링 기법
9.3.4 MaPle을 이용한 바이클러스터 열거 기법
9.4 클러스터링을 위한 차원 축소
9.4.1 클러스터링을 위한 선형 차원 축소
9.4.2 비음수 행렬 분해
9.4.3 스펙트럴 클러스터링
9.5 그래프 및 네트워크 데이터 클러스터링
9.5.1 응용 분야 및 도전 과제
9.5.2 그래프 데이터의 유사성 측정
9.5.3 그래프 데이터의 클러스터링 기법
9.6 반지도식 클러스터링
9.6.1 부분적 라벨 지정 데이터의 반지도식 클러스터링
9.6.2 쌍별 제약 조건 기반의 반지도식 클러스터링
9.6.3 반지도식 클러스터링을 위한 기반 지식
9.7 정리
9.8 연습 문제
9.9 참고 문헌

10장. 딥러닝과 CNN, RNN, GNN 모델

10.1 딥러닝의 기본 개념
10.1.1 딥러닝 개요
10.1.2 역전파 알고리듬
10.1.3 딥러닝 모델 학습의 주요 도전 과제
10.1.4 딥러닝 아키텍처 개요
10.2 딥러닝 모델의 학습 효율 개선
10.2.1 반응형 활성화 함수
10.2.2 적응형 학습률
10.2.3 드롭아웃
10.2.4 사전 학습
10.2.5 크로스 엔트로피
10.2.6 오토인코더: 비지도식 딥러닝
10.2.7 딥러닝 성능 및 효율 개선 기법
10.3 CNN 모델
10.3.1 컨볼루션 연산 개요
10.3.2 다차원 컨볼루션
10.3.3 컨볼루셔널 레이어
10.4 RNN 모델
10.4.1 기본적인 RNN 모델과 활용 방법
10.4.2 게이트 RNN 모델
10.4.3 장기 의존성을 고려한 RNN 기법
10.5 GNN 모델
10.5.1 GNN의 기본 개념
10.5.2 GCN 모델
10.5.3 GNN의 또 다른 기법
10.6 정리
10.7 연습 문제
10.8 참고 문헌

11장. 이상치 감지

11.1 기본 개념
11.1.1 이상치란?
11.1.2 이상점의 유형
11.1.3 이상치 감지의 도전 과제
11.1.4 이상치 감지 기법의 개요
11.2 통계적 이상치 감지
11.2.1 모수적 방법
11.2.2 비모수적 방법
11.3 인접성 기반 이상치 감지
11.3.1 거리 기반 이상치 감지
11.3.2 밀도 기반 이상치 감지
11.4 재구성 기반 이상치 감지
11.4.1 수치형 데이터에 대한 행렬 분해 기반 이상치 감지
11.4.2 범주형 데이터에 대한 패턴 기반 압축 이상치 감지
11.5 클러스터링 및 분류 모델을 이용한 이상치 감지
11.5.1 클러스터링 기반 이상치 감지 기법
11.5.2 분류 모델 기반 이상치 감지
11.6 맥락적 이상치 및 집단적 이상치 마이닝
11.6.1 맥락적 이상치 감지를 전통적인 이상치 감지로 변환하기
11.6.2 맥락을 고려한 정상 행동 모델링
11.6.3 집단적 이상치 마이닝
11.7 고차원 데이터의 이상치 감지
11.7.1 전통적인 이상치 감지 기법의 확장
11.7.2 하위 공간에서 이상치 찾기
11.7.3 앙상블 기반의 고차원 데이터 이상치 감지
11.7.4 딥러닝 기반의 고차원 데이터 이상치 감지
11.7.5 고차원 데이터의 이상치 감지 모델 구현
11.8 정리
11.9 연습 문제
11.10 참고 문헌

12장. 데이터 마이닝 트렌드 및 최신 연구 분야

12.1 다양한 데이터의 마이닝
12.1.1 텍스트 데이터 마이닝
12.1.2 공간-시간 데이터
12.1.3 그래프 및 네트워크 데이터
12.2 데이터 마이닝 애플리케이션
12.2.1 감정 및 의견 데이터의 마이닝
12.2.2 진실 발견 및 거짓 정보 식별
12.2.3 정보와 질병의 전파 모델
12.2.4 생산성과 팀 과학
12.3 데이터 마이닝 방법론 및 체계
12.3.1 지식 마이닝을 위한 비구조적 데이터의 구조화: 데이터 중심 접근법
12.3.2 데이터 증강
12.3.3 상관성 분석과 인과성 분석
12.3.4 맥락으로서 네트워크
12.3.5 Auto-ML의 주요 기법과 체계
12.4 데이터 마이닝, 사람, 사회
12.4.1 개인 정보 보호를 고려한 데이터 마이닝
12.4.2 인간과 알고리듬의 상호작용
12.4.3 데이터 마이닝 평가 지표: 공정성, 해석 가능성, 견고성
12.4.4 공익을 고려한 데이터 마이닝

13장. 데이터 분석을 위한 수학적 기초

A.1 확률과 통계
A.1.1 기본 분포의 확률 밀도 함수
A.1.2 최대 우도 추정과 최대 사후 확률 추정
A.1.3 유의성 검정
A.1.4 밀도 추정
A.1.5 편향-분산 상쇄
A.1.6 교차 검증과 잭나이프
A.2 수치 최적화
A.2.1 경사 하강법
A.2.2 다양한 경사 하강법
A.2.3 뉴턴 방법
A.2.4 좌표 하강법
A.2.5 이차 프로그래밍
A.3 행렬과 선형 대수
A.3.1 선형 시스템 Ax = b
A.3.2 벡터와 행렬 거리
A.3.3 행렬 분해
A.3.4 벡터 공간과 하위 공간
A.3.5 직교성
A.4 신호 처리의 개념 및 분석 도구
A.4.1 엔트로피
A.4.2 KL 분산
A.4.3 상호 정보
A.4.4 이산 푸리에 변환과 고속 푸리에 변환
A.5 참고 문헌
Author
지아웨이 한,지안 페이,항항 통,동준상
일리노이 대학교 어바나 샴페인 캠퍼스(UIUC, University of Illinois at Urbana-Champaign) 컴퓨터 과학 학부의 마이클 에이켄(Michael Aiken) 석좌 교수이며, 지식 발견 및 데이터 마이닝 연구에 대한 기여로 ACM(Association for Computing Machinery) SIGKDD 혁신상(2004), IEEE(Institute of Electrical and Electronics Engineers) 컴퓨터 학회 기술 공로상(2005), IEEE W. 월러스 맥도웰(Wallace McDowell)상(2009) 등을 수상했다. ACM 및 IEEE의 펠로(fellow) 연구자다. 『ACM Transactions on Knowledge Discovery from Data』(2006-2011)의 창립 편집장을 역임했으며, 『IEEE Transactions on Knowledge and Data Engineering』, 『Data Mining and Knowledge Discovery』 등 여러 저널의 편집위원회 회원으로 활동했다.
일리노이 대학교 어바나 샴페인 캠퍼스(UIUC, University of Illinois at Urbana-Champaign) 컴퓨터 과학 학부의 마이클 에이켄(Michael Aiken) 석좌 교수이며, 지식 발견 및 데이터 마이닝 연구에 대한 기여로 ACM(Association for Computing Machinery) SIGKDD 혁신상(2004), IEEE(Institute of Electrical and Electronics Engineers) 컴퓨터 학회 기술 공로상(2005), IEEE W. 월러스 맥도웰(Wallace McDowell)상(2009) 등을 수상했다. ACM 및 IEEE의 펠로(fellow) 연구자다. 『ACM Transactions on Knowledge Discovery from Data』(2006-2011)의 창립 편집장을 역임했으며, 『IEEE Transactions on Knowledge and Data Engineering』, 『Data Mining and Knowledge Discovery』 등 여러 저널의 편집위원회 회원으로 활동했다.