R로하는 빅데이터 분석으로 완전 기초에서 머신러닝 응용까지 빅데이터 분석 기사를 준비하는 수험생과 빅데이터 분석을 배우고자 하는 분들에 유용한다. R 환경에서 빅데이터 시험을 보시는 분들에게 아주 유용한 팁을 담고 있다. 빅데이터 분석 환경상 긴 시간과 지루함을 제거하는데 유용한 기능들이 담겨져 있다. 처음부터 R 언어를 활용하고 응용하고자 하시는 사용자에게 아주 유용한 책이다.
Contents
제1부 빅데이터와 R 1
1. 빅데이터와 R 1
1.1 빅데이터 소개 1
1.2 R이란 2
1.3. 설치와 유용한 환경 3
1.4. 도움말 기능 4
1.5. 주석처리 5
1.5. 단축키 사용 6
1.6. IDE 8
1.7. 할당 기호 “=”와 “←” 8
1.8. 데이터 제거 10
1.9. plot창 제거 11
1.10. plot의 마진설정 12
1.11. 언어설정 13
1.12. Error in plot.new() 14
2. R Studio_환경 구축과 시작 15
2.1. 경로 지정·확인하기 15
2.2. 패키지 설치·확인 16
2.3. Google Colab에서 패키지 설치 18
2.4. csv file 불러오기 19
2.5. 내장된 data 불러오기 20
2.6. 여러 csv 파일 불러오기 21
2.7. 웹페이지 불러오기 23
2.8. excel file 24
2.9. 찾아서 불러오기 24
2.10. 파일 리스트 출력 25
2.11. 불러오기 Errors 25
2.12. .csv 저장하기 26
2.13. iris 데이터 엑셀로 저장 27
2.14. 그래프 저장하기 27
2.15. save(), load() 28
3. 데이터 타입 30
3.1. 변수 30
3.2. 스칼라 31
3.2.1. 숫자 31
3.2.2. NA 32
3.2.3. NULL 32
3.2.4. 일반 연산자 33
3.2.5. 문자열 34
3.2.6. 진리값 34
3.2.7. 요인(Factor) 35
3.2.8. ordered = T 37
3.3. 벡터(Vector) 38
3.3.1. “c( )” 함수 38
3.3.2. 인덱싱과 슬라이싱 39
3.3.3. 벡터 연산 41
3.3.4. 벡터와 행렬 함수 42
3.3.4. seq() 43
3.3.5. rep() 43
3.3.6. 원소 치환(Substitution) 43
3.3.7. 원소의 제거 44
3.4. 리스트(List) 44
3.4.1. 리스트의 정의 45
3.4.2. 리스트내 데이터 접근 45
3.4.3. names() & unlist() 46
3.5. 행렬(matrix) 47
3.5.1. 행렬의 정의 48
3.5.2. 행렬 원소지정(Indexing or Slicing) 49
3.5.3. 행렬의 연산 51
3.5.4. 정방행렬과 ncol(), nrow() 52
3.5.5. col(row)Means(), col(row)Sums() 53
3.5.6. rbind(), cbind() 54
3.5.7. 열과 행의 이름 56
3.5.8. Error in x %*% y 57
3.6. 배열 58
3.6.1. 배열 정의 58
3.6.2. 배열 데이터 접근 59
3.7. 데이터 프레임(Data Frame) 61
3.7.1. 데이터 프레임 정의 61
3.7.2. 데이터 프레임 접근 63
3.7.3. 특수 연산자 %in%, %any% 64
3.7.4. str() head() summary() 64
3.7.5. rownames(), colnames() 66
3.7.6. 연관 검색 67
3.7.7. attach()와 detach() 68
3.8. 타입 판별 69
3.8.1. 타입 변환 70
3.8.2. 자료 구조의 확인과 변환 72
제 2부 함수,제어와 데이터 전처리 74
4. IF, FOR, WHILE 문 74
4.1. IF문 구조 74
4.2. if-else 구문 75
4.3. if-else if-else 구문 75
4.4. ifelse() 함수 76
4.5. For( ) 76
4.6. Break 77
4.7. While( ) 77
4.8. Next 78
4.9. Repeat( ) 78
4.10. NA의 처리 79
4.10.1. 결측치 확인 80
4.10.2. 결측치 대체법 (Imputation) 81
4.10.3. dplyr()로 exam.csv처리 82
4.10.4. na.rm=T 결측치 제외 85
4.10.5. mpg 데이터 조작 87
5. 함수의 정의 90
5.1. 함수 용례 90
5.2. 중첩함수((Nested Function) 91
5.3. 함수의 코드 보기 92
5.4. 스코프(Scope) 92
5.5. 기타 함수sum(), mean() 93
6. 데이타 가공 96
6.1. upSample() 함수 96
6.2. downSample() 98
6.3. scale() 표준화(Standardization) 98
6.2. 범위 정규화 minmax() 100
6.3. 기술통계량 102
6.3.1. sapply() 함수로 평균 102
6.3.2. summary() 102
6.3.3. fivenum() 함수 103
6.3.4. Hmisc 패키지의 describe() 함수 103
6.3.5. pastecs 패키지의 stat.desc() 함수 104
부산대학교 경제학 박사. 블록체인 알고리즘, 신경망 전문가 지원 시스템, 빅데이타와 코딩언어(R, Python) 등의 융합학문 연구와 강의를 하고 있다. 교육경제 컨설턴트, 영어전문가, 음악 치유사. AI 교육 전문가로 교육과 경제와 미래학 관련 학술지에 논문 게재하고 있다.
게임이론을 적용한 블록체인 알고리즘 구현을 연구하였다. 지금은 계량경제, 빅데이타와 코딩언어(R, Python)를 융합한 연구를 하고 있다. 교육경제컨설턴트로, 영어학원과 취미로 음악실을 운영하고 있고, 교육경제관련 유명 학술지에 여러편의 논문을 게재하였다. 사교육이 일반고등학생의 성적향상과 대학진학에 유의미한 영향을 주었는가? 등을 다방면으로 모델링하고 있다.
부산대학교 경제학 박사. 블록체인 알고리즘, 신경망 전문가 지원 시스템, 빅데이타와 코딩언어(R, Python) 등의 융합학문 연구와 강의를 하고 있다. 교육경제 컨설턴트, 영어전문가, 음악 치유사. AI 교육 전문가로 교육과 경제와 미래학 관련 학술지에 논문 게재하고 있다.
게임이론을 적용한 블록체인 알고리즘 구현을 연구하였다. 지금은 계량경제, 빅데이타와 코딩언어(R, Python)를 융합한 연구를 하고 있다. 교육경제컨설턴트로, 영어학원과 취미로 음악실을 운영하고 있고, 교육경제관련 유명 학술지에 여러편의 논문을 게재하였다. 사교육이 일반고등학생의 성적향상과 대학진학에 유의미한 영향을 주었는가? 등을 다방면으로 모델링하고 있다.