이른바 빅데이터 시대, 우리는 의사결정을 잘하는 데 필요한 정보는 다 가지고 있다고 생각하기 쉽다. 하지만 사실 우리가 가진 데이터가 ‘온전했던’ 적은 없었다. 손에 쥔 데이터는 빙산의 일각일지도 모른다. 우주의 상당 부분이 보이지는 않아도 엄연히 존재하는 암흑물질로 이루어져 있듯이, 정보의 우주 역시 우리가 위험천만하게 간과할 수 있는 ‘다크 데이터’로 가득하다.
영국 왕립통계학회장을 역임했으며 대영제국 훈장을 수여한 세계적인 통계학자 데이비드 핸드는 신작 《다크 데이터》에서 보이지 않는 데이터의 세계를 향한 흥미진진한 여정으로 우리를 인도한다.
의료 통계, 금융상품 설계, 인구조사, 실험 설계에서
금융사기 감지, 투자 예측, 질병 진단, 개인정보 보호까지
‘다크 데이터’의 함정을 피하고 위험을 기회로 만드는 법
《다크 데이터》는 우리가 누락된 데이터를 알아차리지 못하게 되는 과정들, 그리고 그로 인해 우리가 어떻게 잘못되고 위험하고 심지어 파국에 이를 수도 있는 결론과 행위에 이르게 되는지 다각도에서 탐사한다. 우주왕복선 챌린저호 폭발사고부터 복잡한 금융사기와 AI 알고리즘까지, 현실에서 만날 수 있는 다양한 사례를 면밀하게 파고든다. 데이비드 핸드는 우리가 다크 데이터를 분별하고 제어하는 법을 익힐 수 있도록, 세상에 존재하는 ‘다크 데이터’의 유형과 그것들이 발생하는 상황들에 대해 현실적인 분류법을 제시한다. 이로써 우리는 ‘우리가 모르는 것들’이 초래하는 문제들에 대해 경각심을 가질 뿐만 아니라, 다크 데이터를 이용해서 더 깊은 이해와 더 나은 결정을 하게 된다
Contents
1부
다크 데이터는 어떻게 생겨나고
어떤 결과를 초래하는가
1장.
다크 데이터: 보이지 않는 것이 이 세계를 만든다
보이지 않는 위험, 다크 데이터
데이터를 다 갖고 있다고 생각하는군요?
아무 일도 안 생겨서 무시해버릴 때 생기는 일
다크 데이터의 위력
다크 데이터는 언제 어디에나 있다
2장.
다크 데이터 찾아내기:
우리가 모은 것과 모으지 않은 것
데이터를 얻는 3가지 방식과 다크 데이터의 출현
데이터 잔해에서 얻는 다크 데이터
설문조사에서 생기는 다크 데이터
실험 데이터에도 다크 데이터가 끼어든다
인간적 취약점에 주의하시라
3장.
다크 데이터와 정의:
알고자 하는 것이 정확히 무엇인가?
엉뚱한 것을 측정해버렸다: 정의가 달라질 때
‘모든’ 것을 측정할 수는 없다: 심슨의 역설
질병 검진 프로그램의 취약성
과거 성과를 보고 선택할 때의 다크 데이터
4장.
의도하지 않은 다크 데이터: 말과 행동이 따로 놀 때
어디까지 정확해야 하지?
요약은 필연적으로 다크 데이터를 만든다
인간이니까 생기는 오류
측정 도구의 한계
데이터 세트를 통합할 때의 문제
5장.
전략적 다크 데이터: 게이밍, 피드백, 정보 비대칭
게이밍: 빈틈을 이용해 이득을 얻다
피드백: 피드백이 데이터를 왜곡시킬 때
정보 비대칭: 중고차 시장에서 무슨 일이 일어났나
다크 데이터가 알고리즘에 끼치는 영향
6장.
고의적 다크 데이터: 사기와 기만
사기의 세계: 핵심은 데이터 숨기기다
신원 도용과 인터넷 사기: ‘자칼의 날’
계속 진화하는 개인금융 사기
금융시장 사기와 내부자 거래
보험 사기: 고객을 속이거나 보험사를 속이거나
그 밖의 사기: 돈세탁, 다단계 사기, 횡령
7장.
다크 데이터와 과학: 발견의 본질
과학의 본질: 검증 체계로서의 과학
내가 그걸 알았더라면!: 과학자들의 흑역사
우연히 만난 다크 데이터: 과학자들의 행운
반복 실험을 통한 재현: 과학 연구의 다크 데이터
사실을 감추는 방법들
철회
출처와 신뢰성: “누가 그러던가요?”
2부
다크 데이터에 빛을 비추고 이용하는 법
8장.
다크 데이터 다루기: 빛을 비추기
희망은 있다
관측 데이터를 빠진 데이터와 연결하기
3가지 데이터 누락 메커니즘
이미 가진 데이터를 활용하는 법
생존분석 문제: 당신이 먼저 죽는다면?
대치법: 빠진 데이터를 채워넣기
반복: 최대가능도 모형과 EM 알고리즘
데이터 오류에 대처하는 방법
9장.
다크 데이터로 이득을 얻는 법: 질문을 바꿔보자
데이터를 숨기는 게 이득이 될 때
무작위 대조군 시험: 데이터를 모두에게 숨겨라
시뮬레이션: 일어났을 수도 있는 일
전략적으로 복제된 데이터
베이즈 사전확률: 가상의 데이터
사생활 보호와 기밀 유지
데이터를 다크 상태로 수집하기
10장.
다크 데이터 분류법: 미로 속으로 난 길
다크 데이터의 15가지 유형
새롭게 조명하기