완전 기초에서 머신러닝 응용까지 R로 하는 빅데이터 분석

진하수

BOOKK(부크크)

$22.22

SKU

9791141029937

[Free shipping over $100]

Standard Shipping estimated by Fri 05/9 - Thu 05/15 (주문일로부 10-14 영업일)

Express Shipping estimated by Tue 05/6 - Thu 05/8 (주문일로부 7-9 영업일)

* 안내되는 배송 완료 예상일은 유통사/배송사의 상황에 따라 예고 없이 변동될 수 있습니다.

Publication Date	2023/05/31
Pages/Weight/Size	18825420mm
ISBN	9791141029937
Categories	IT 모바일 > OS/데이터베이스

Skip to the end of the images gallery

Skip to the beginning of the images gallery

Description

R로하는 빅데이터 분석으로 완전 기초에서 머신러닝 응용까지 빅데이터 분석 기사를 준비하는 수험생과 빅데이터 분석을 배우고자 하는 분들에 유용한다. R 환경에서 빅데이터 시험을 보시는 분들에게 아주 유용한 팁을 담고 있다. 빅데이터 분석 환경상 긴 시간과 지루함을 제거하는데 유용한 기능들이 담겨져 있다. 처음부터 R 언어를 활용하고 응용하고자 하시는 사용자에게 아주 유용한 책이다.

Contents

제1부 빅데이터와 R 1

1. 빅데이터와 R 1
1.1 빅데이터 소개 1
1.2 R이란 2
1.3. 설치와 유용한 환경 3
1.4. 도움말 기능 4
1.5. 주석처리 5
1.5. 단축키 사용 6
1.6. IDE 8
1.7. 할당 기호 “=”와 “←” 8
1.8. 데이터 제거 10
1.9. plot창 제거 11
1.10. plot의 마진설정 12
1.11. 언어설정 13
1.12. Error in plot.new() 14

2. R Studio_환경 구축과 시작 15
2.1. 경로 지정·확인하기 15
2.2. 패키지 설치·확인 16
2.3. Google Colab에서 패키지 설치 18
2.4. csv file 불러오기 19
2.5. 내장된 data 불러오기 20
2.6. 여러 csv 파일 불러오기 21
2.7. 웹페이지 불러오기 23
2.8. excel file 24
2.9. 찾아서 불러오기 24
2.10. 파일 리스트 출력 25
2.11. 불러오기 Errors 25
2.12. .csv 저장하기 26
2.13. iris 데이터 엑셀로 저장 27
2.14. 그래프 저장하기 27
2.15. save(), load() 28

3. 데이터 타입 30
3.1. 변수 30
3.2. 스칼라 31
3.2.1. 숫자 31
3.2.2. NA 32
3.2.3. NULL 32
3.2.4. 일반 연산자 33
3.2.5. 문자열 34
3.2.6. 진리값 34
3.2.7. 요인(Factor) 35
3.2.8. ordered = T 37
3.3. 벡터(Vector) 38
3.3.1. “c( )” 함수 38
3.3.2. 인덱싱과 슬라이싱 39
3.3.3. 벡터 연산 41
3.3.4. 벡터와 행렬 함수 42
3.3.4. seq() 43
3.3.5. rep() 43
3.3.6. 원소 치환(Substitution) 43
3.3.7. 원소의 제거 44
3.4. 리스트(List) 44
3.4.1. 리스트의 정의 45
3.4.2. 리스트내 데이터 접근 45
3.4.3. names() & unlist() 46
3.5. 행렬(matrix) 47
3.5.1. 행렬의 정의 48
3.5.2. 행렬 원소지정(Indexing or Slicing) 49
3.5.3. 행렬의 연산 51
3.5.4. 정방행렬과 ncol(), nrow() 52
3.5.5. col(row)Means(), col(row)Sums() 53
3.5.6. rbind(), cbind() 54
3.5.7. 열과 행의 이름 56
3.5.8. Error in x %*% y 57
3.6. 배열 58
3.6.1. 배열 정의 58
3.6.2. 배열 데이터 접근 59
3.7. 데이터 프레임(Data Frame) 61
3.7.1. 데이터 프레임 정의 61
3.7.2. 데이터 프레임 접근 63
3.7.3. 특수 연산자 %in%, %any% 64
3.7.4. str() head() summary() 64
3.7.5. rownames(), colnames() 66
3.7.6. 연관 검색 67
3.7.7. attach()와 detach() 68
3.8. 타입 판별 69
3.8.1. 타입 변환 70
3.8.2. 자료 구조의 확인과 변환 72

제 2부 함수,제어와 데이터 전처리 74

4. IF, FOR, WHILE 문 74
4.1. IF문 구조 74
4.2. if-else 구문 75
4.3. if-else if-else 구문 75
4.4. ifelse() 함수 76
4.5. For( ) 76
4.6. Break 77
4.7. While( ) 77
4.8. Next 78
4.9. Repeat( ) 78
4.10. NA의 처리 79
4.10.1. 결측치 확인 80
4.10.2. 결측치 대체법 (Imputation) 81
4.10.3. dplyr()로 exam.csv처리 82
4.10.4. na.rm=T 결측치 제외 85
4.10.5. mpg 데이터 조작 87

5. 함수의 정의 90
5.1. 함수 용례 90
5.2. 중첩함수((Nested Function) 91
5.3. 함수의 코드 보기 92
5.4. 스코프(Scope) 92
5.5. 기타 함수sum(), mean() 93

6. 데이타 가공 96
6.1. upSample() 함수 96
6.2. downSample() 98
6.3. scale() 표준화(Standardization) 98
6.2. 범위 정규화 minmax() 100
6.3. 기술통계량 102
6.3.1. sapply() 함수로 평균 102
6.3.2. summary() 102
6.3.3. fivenum() 함수 103
6.3.4. Hmisc 패키지의 describe() 함수 103
6.3.5. pastecs 패키지의 stat.desc() 함수 104

제 3부. 데이터 조작 107

7. 수식 연산 108
7.1. 다항식 근 찾기 108
7.2. 미분 108
7.3. 적분하기 109
7.4. iris 데이터 110
7.4. mtcars 111

8. apply 함수들 113
8.1. apply() 114
8.2. lapply() 118
8.3. sapply() 119
8.4. tapply 121
8.5. mapply() 124

9. doBy 패키지 127
9.1. summary() 127
9.2. quantile() 128
9.3. summaryBy() 131
9.4. orderBy() order() 133
9.5. splitBy() split() 135
9.6. sampleBy() sample() 138

10. 기타 함수들 143
10.1. subset() 143
10.2. merge() 145
10.3. sort(), order() 149
10.4. with(), within() 151
10.5. attach(), detach() 153
10.6. which(), which.max(), which.min() 154
10.7. aggregate() 155
10.8. stack(), unstack() 156

제 4 부. 데이터 조작 II 159

11. sqldf, plyr, reshape2, data.table 159
11.1. sqldf 패키지 159
11.2. plyr 패키지 160
11.2.1. adply() 160
11.2.2. ddply() 161
11.3. transform(), summarise(), subset() 163
11.3.1. transform() 163
11.3.2. summarise() 164
11.3.3. subset() 165
11.4. m*ply() 165
11.5. reshape2 패키지 166
11.5.1. melt() 166
11.5.2. complete.cases() 168
11.6. data.table 패키지 168
11.6.1. 데이터 접근 169
11.6.2. system.time() 171
11.6.3. 데이터 테이블 병합 171

12. 기타 함수 174
12.1. foreach() 174
12.2. doParallel(), doMC() 175
12.3 print() 175
12.4. sprintf() 175
12.5. cat() 176
12.6. system.time() 177
12.7. Rprof() 178

제 5 부 시각화 181

13. ggplot 181
13.1. 산점도 182
13.2. 그래픽 옵션 183
13.2.1. 축 이름(xlab, ylab) 183
13.2.2. 그래프 제목(main) 184
13.2.3. 점의 종류(pch) 184
13.2.4. 점의 크기(cex) 185
13.2.5. 색상(col) 185
13.2.6. 좌표축 값의 범위(xlim, ylim) 186
13.2.7. multi plot 187
13.2.8. type 188
13.2.9. 그래프 배열 190
13.3. 지터(jitter) 190
13.4. 점(points) 192
13.5. 선(lines) 193
13.6. 직선(abline) 196
13.7. 곡선(curve) 197
13.8. 다각형(polygon) 198
13.9. 데이터의 식별 201
13.9.1. 문자열(text) 201
13.9.2. 데이터의 표시 201
13.10. 범례(legend) 202
13.11. matplot () 203
13.12. 상자 그림(boxplot) 204
13.13 히스토그램(hist) 208
13.14. 밀도 그림(density) 210
13.15. 막대 그림(barplot) 211
13.16. 파이 그래프(pie) 212
13.17 모자이크 플롯(mosaicplot) 213
13.18. 산점도 행렬(pairs) 216
13.19. 투시도(persp), 등고선 그래프(contour) 218
13.19.1. persp() 218
13.19.2. contour() 220

Author

진하수

부산대학교 경제학 박사. 블록체인 알고리즘, 신경망 전문가 지원 시스템, 빅데이타와 코딩언어(R, Python) 등의 융합학문 연구와 강의를 하고 있다. 교육경제 컨설턴트, 영어전문가, 음악 치유사. AI 교육 전문가로 교육과 경제와 미래학 관련 학술지에 논문 게재하고 있다.

게임이론을 적용한 블록체인 알고리즘 구현을 연구하였다. 지금은 계량경제, 빅데이타와 코딩언어(R, Python)를 융합한 연구를 하고 있다. 교육경제컨설턴트로, 영어학원과 취미로 음악실을 운영하고 있고, 교육경제관련 유명 학술지에 여러편의 논문을 게재하였다. 사교육이 일반고등학생의 성적향상과 대학진학에 유의미한 영향을 주었는가? 등을 다방면으로 모델링하고 있다.