이 책은 혼자서 해도 재미를 붙일 수 있다. 수업에서와 마찬가지로, 하루 10분씩 교재 내용을 컴퓨터 실습하자. 책 내용 구성이 특별하다는 것을 강조하고 싶다. R 언어와 확률통계를 연결한다. 특히나 손쉬운 프로그램인 R ommander를 연결시킨다. 이런 접근으로 통찰적 이해가 가능하다. 요인factor 개념에서 이러한 점이 잘 드러난다. 백과사전식 설명을 하지 않는다. 책 전반에서 먼저 측정수준을 전체를 연결하는 고리로서 진행한다. 이런 식으로 숫자가 가지는 의미 차이에서 요인이 나온다는 것을 드러낸다. 그리고는 R Commander 실습을 통해 요인이라는 것이 실체가 있다는 것을 보여준다. R 코딩에서의 요인 만들기 실습을 해보면서 자신감을 가진다.
이러한 지향은 앞으로 나아갈 발판도 제공한다. R 코딩과 확률통계 공부는, 인공지능 한 분야인 머신러닝machine learning 공부의 기초이다. 조건부 확률은 머신러닝으로 나아가는 중요한 기초인 것 같아, 그 원리를 자세히 풀어 설명한다.
사실 책 전체에서 수학 기초를 다루고 있다. 수학에 재미를 붙여야, 코딩 실력이 쭉 나아갈 수 있다. 단순히 R 삼각함수 명령어를 다루지 않고, R 각도 단위인 라디안radian 설명을 한다. 행렬 곱셈도 일단 이해되게 얘기한다. 확률 개념에 대해서도 그래서 더 쉽고 상세하게 풀어 놓는다. 이 정도 수학만 알아도, 수학 때문에 코딩 못 한다는 공포는 일단 접어둘 수 있다.
Contents
1. R 설치 1
2. 명령문 실행하는 R 콘솔을 계산기로 써보기 8
3. 최소단위 벡터vector 그리고 구성요소 묶는 c 함수 10
4. 1:5 하면 1 간격으로 이렇게 1 2 3 4 5 12
5. 문자 벡터 구성요소에 "" 없으면 R이 객체를 찾는다 13
6. 벡터가 최소단위라서 재활용recycling 15
7. 맞다TRUE 아니다FALSE 논리 벡터 19
8. 그리고& 혹은| 아니다! 21
9. ==대신 = 쓰면 보통은 벡터가 지정된다 26
10. 벡터 구성요소 가져오는 대괄호 [] 27
11. 제곱근sqrt 절대값abs 반올림round 올림ceiling 내림floor 소수버림trunc 29
12. R에서는 은행 반올림banker’s rounding 쓴다 32
13. R 각도는 라디안radian 34
14. log 함수와 자연상수 36
15. 중심을 표현하는 함수 mean median 38
16. R 자체 함수 안 쓰고 버티기와 length 함수 39
17. 결측값NA 그리고 결측값 없애는 na.rm 함수 41
18. 규칙적 벡터 그리고 벡터 규칙적으로 정리하기 seq rep sort 42
19. 벡터 구성요소 하나 하나 한꺼번에 따지는 ifelse 함수 45
20. 중위수 미만 평균이라는 새로운 시도 47
21. 대괄호 [] 써서 중위수 미만 평균 구하기 48
22. ifelse 써서 중위수 미만 평균 구하기 49
23. subset 써서 중위수 미만 평균 구하기 50
24. 자신만의 함수 만들기 51
25. if 함수를 잘 안 쓰고 대신 ifelse 쓰는 이유 54
26. 벡터로 데이터프레임 만들기 56
27. 열 행 묶어 데이터프레임 그리고 벡터 재활용 rbind cbind 57
28. 중간에 $ 넣어서 데이터프레임에서 벡터 가져오기 60
29. 벡터를 그냥 표처럼 정리하면 메트릭스 61
30. 메트릭스 다르게 만들기 rbind cbind 63
31. 메트릭스에서 행과 열 이름 붙이기 64
32. 메트릭스에서 apply 함수 65
33. apply 함수와 배열array 68
34. 메트릭스 계산 69
35. R Studio 72
36. source script 라고 부르는 이유와 print 함수 paste 함수 77
37. 만들고 실행한 결과물인 작업공간 저장하지는 말자 78
38. 좌표 찍기 plot 80
39. 데이터프레임 plot 85
40. 좌표 실제 나오는 방식 type 86
41. polygon 비어있는 좌표를 만든 이후에 다각형 그리기 90
42. 도박하면 망한다는 큰수 법칙, R Studio 편집창으로 실습 91
43. 각 자리에 다른 걸 늘어놓는 경우의 수 팩토리얼factorial 94
44. 조합combination 공식없이 이해하기 98
45. 조합과 파스칼 삼각형 102
46. 기댓값, 이항분포 기댓값, 이항분포 확률 계산 107
47. t값이나 표준점수로 비교가 가능하다 111
48. 표준정규분포와 정규분포 112
49. R commander 설치 118
50. R Commander 데이터 입력 121
51. R Commander 중심경향 산포도 126
52. R Commander 편집하고 분석하고 다시 저장하기 131
53. 목록이 있어야 무작위 표본추출이다. 그래야 확률통계이다 135
54. 가설제기는 검사의 유죄 기소이다. 가설검정은 재판이다 136
55. 생사람 잡을 확률이 유의확률이다 137
56. 숫자화된 정보의 네 가지 측정수준은 이름 순서 점수 비율 137
57. 통계분석 본질은 변수간 관계 여부 통계분석 실제는 측정수준 138
58. 평균비교 남녀차별 비연속?연속 140
59. 교차분석 R Commander에서 text 파일 열기 145
60. 교차분석 남녀차별 비연속?비연속 148
61. 교차분석 기댓값 원리 생각해보기 149
62. 재판에서는 증거늘면 유죄 가설검증은 표본크기 늘면 입증 152
63. 비연속?연속 평균비교 대신 분산분석을 쓰는 경우 156
64. R 자체 파일 가져오기 158
65. 상자그림 본격적 분석 이전에 살펴보기 161
66. 히스토그램 본격적 분석 이전에 살펴보기 163
67. 정규성 검정 전제조건으로서 정규분포 여부 확인 165
68. 등분산 가정 비교하는 집단내 값이 흩어진 정도가 동일 167
69. 분산분석 세 집단 연봉 차이 비연속?연속 168
70. pf 함수로 분산분석 F 유의확률 구하기 171
71. F 값 직접 계산해보기 175
72. 상관분석 남녀차별 연속~연속 179
73. 상관분석 r 계산 직접 해보기 183
74. 회귀분석 남녀차별 연속~ 연속 185
75. 요인분석에서의 요인이 아닌 측정수준 관련된 요인factor 188
76. factor 함수와 명목nominal 측정수준 193
77. factor 함수와 순서ordianal 측정수준 195
78. 이런 저런 R Commander 국가별 기대수명 표준점수 196
79. 이런 저런 R Commander 기대수명을 기대 노년으로 바꾸기 202
80. 이런 저런 R Commander 지역 비교 결과물 그리고 요인 204
81. 이런 저런 R Commander 가난한 순서대로 늘어놓기 208
82. 새우깡 무게 90g R Commander 평균추정 210
83. 관계있는 표본 관계 찾기로서 이전 이후 평균 비교 paired t test 214
84. 정권 바뀔 때마다 1% 줄어드는 성장률 R Commander 선도표 218
85. 시각화에 절대적인 것은 없다. 시간 흐름에 산점도 쓰기 221
86. 다양한 것을 묶는 list 함수 224
87. list 함수에서 [] [[]] 225
88. 리스트list 내어놓는 apply 비슷한 함수 lapply 228
89. 문자벡터 length nchar 차이점 229
90. 글자 나누는 strsplit 함수는 벡터에서 리스트로 바꾼다 230
91. 벡터를 쪼개어서 벡터로 만드는 방법은 없을까? 232
92. 문자벡터 합치고 또 재활용recycling 하는 paste 함수 234
93. 벡터 정렬은 sort 함수 236
94. [] 활용해서 벡터와 데이터프레임에서 구성요소 골라내기 238
95. 데이터프레임 정렬은 order 함수 240
96. 만능패 만들기 grep 함수 242
97. 이메일 주소 grep으로 찾으려면 무슨 기호 · @ 둘 중 정답은 247
98. 광범위하지만 공간을 지정하는 마침표· 248
99. 마침표· 써서 이메일 주소 찾는 방법 253
100. grep 함수와 대괄호 [] 253
101. 가난과 비극 Kaggle 일인당GDP 영아사망률 산점도 259
102. 우리는 기후변화 가해자 혹은 피해자 data.go.kr 가정용 전기 사용 270
103. 남녀차별 SNS 연관어 썸트렌드 272
104. 머신러닝machine learning 기초 그리고 조건부 확률 273
105. 지금부터 조금씩 나아갈 방향 285
Author
김준우
1999년 미시간주립대 사회학-도시학 박사
2000년 싱가포르국립대 박사후과정
2001년 부산발전연구원 부연구위원
2002년 전남대 사회학과 교수
저역서
2005년 『사회과학의 현대통계학』 (김영채 공저) 박영사
2007년 『즐거운 SPSS, 풀리는 통계학』 박영사
2007년 『국가와 도시』 전남대학교출판부
2008년 『선집으로 읽는 한국의 도시와 지역』 (안영진 공편) 박영사
2010년 『공간이론과 한국도시의 현실』 전남대학교출판부
2013년 『황금도시: 장소의 정치경제학』 전남대학교출판부
John R. Logan & Harvey L. Molotch(2007), Urban Fortunes: The Political Economy of Place, The University of California.
2017년 『새로운 지역격차와 새로운 처방: 철근/콘크리트에서 지역발전유발 지식서비스로』 (안영진 공저) 박영사
2019년 『서울권의 등장과 나머지의 쇠퇴』 전남대학교출판부
『미국이라는 공간: 부동산 투기·노예제·인종 차별·인디언 제거·뺏기는 삶의 터전』 박영사
1999년 미시간주립대 사회학-도시학 박사
2000년 싱가포르국립대 박사후과정
2001년 부산발전연구원 부연구위원
2002년 전남대 사회학과 교수
저역서
2005년 『사회과학의 현대통계학』 (김영채 공저) 박영사
2007년 『즐거운 SPSS, 풀리는 통계학』 박영사
2007년 『국가와 도시』 전남대학교출판부
2008년 『선집으로 읽는 한국의 도시와 지역』 (안영진 공편) 박영사
2010년 『공간이론과 한국도시의 현실』 전남대학교출판부
2013년 『황금도시: 장소의 정치경제학』 전남대학교출판부
John R. Logan & Harvey L. Molotch(2007), Urban Fortunes: The Political Economy of Place, The University of California.
2017년 『새로운 지역격차와 새로운 처방: 철근/콘크리트에서 지역발전유발 지식서비스로』 (안영진 공저) 박영사
2019년 『서울권의 등장과 나머지의 쇠퇴』 전남대학교출판부
『미국이라는 공간: 부동산 투기·노예제·인종 차별·인디언 제거·뺏기는 삶의 터전』 박영사