데이터가 중요하다고 모두 말한다. 하지만 활용되지 못하고 쌓여만 가는 데이터는 누구에게나 짐이 될 뿐이다. 데이터의 분석과 활용 능력이 기업은 물론 개인의 경쟁력을 결정하는 가장 중요한 요인이 되었다. 최고의 기업으로 올라선 아마존과 넷플릭스가 정교한 추천시스템을 운영할 수 있는 것은 방대한 양의 데이터 수집은 물론 최고의 데이터 분석기술을 활용하면서 계속 발전시켜 나가기 때문이다. 데이터 활용능력이 있어야 데이터 수집도 제대로 할 수 있다는 것을 보여준 기업들이다.
빅데이터, 인공지능, 사물인터넷(IOT), SNS, 클라우드 서비스 등의 등장과 발전은 데이터 과학의 적용 범위를 더욱 넓혀 갈 것이다. 데이터 과학은 수집된 데이터의 활용에 관한 학문으로 효과적인 사실 기반 의사결정이 가능하도록 돕는 것이 목적이기 때문이다. 따라서 경영환경의 변화를 신속히 감지하여 적절한 대처 방안을 마련하려면 적절한 데이터를 계속적으로 수집 축적하고 분석 작업을 통해 숨겨진 패턴이나 지식을 찾는 데이터 과학이 핵심적 역할을 담당해야 하는 시대가 되었다. 지난20년 이상 학문적으로도 사용되어 온 데이터 마이닝은 이제 빅데이터 시대를 맞이하여 데이터 공학과 데이터 과학으로 분화 발전하면서 데이터 과학에 자리를 내주게 되었다고 생각한다.
데이터 과학 프로젝트는 팀 프로젝트이다. 데이터 과학자는 응용분야 전문가, 데이터 엔지니어, 현업 담당자들과 조화로운 팀워크을 형성할 수 있을 때 비로소 원하는 목표 달성이나 문제해결을 할 수 있다는 것이다. 따라서 팀원들 사이의 원활한 의사소통을 위해서는 데이터 과학자가 아니더라도 데이터 과학에 대한 상당한 이해를 요구한다. 최근 시티즌 데이터 과학자 또는 아마추어 애널리스트라는 용어가 자주 사용되는 이유이며 이 책의 집필 목적의 하나이기도 하다.
Contents
1. 데이터 과학이란?
2. 의사결정지원시스템
3. 데이터 준비
4. 데이터 탐색
5. 연관 규칙
6. 회귀 분석
7. 분류의 기본 개념
8. 분류 기법
9. 군집 분석
10. 신경망과 딥러닝
11. 데이터 전처리
12. 텍스트 마이닝