AI와 빅데이터 관련 연구나 개발 업무를 위해서는 먼저 데이터셋을 만들거나 검증된 데이터셋을 찾아야 합니다. 이 책은 여러 분야별로 검증된 데이터셋만을 소개하고 저작권과 관련 논문까지 안내하고 있습니다. 이것은 AI와 빅데이터 시대에 꼭 필요한 책입니다. 데이터셋들의 백업본을 별도로 제공하고 있으므로 이 책을 한 번 구매하면, 원본 출처 사이트에 문제가 생기더라도 데이터셋을 구할 수 있습니다.
도서 홈페이지 : https://needleworm.github.io/dataset
Contents
CHAPTER 0 데이터셋 사용 안내
SECTION 01 이 책을 활용하는 방법
SECTION 02 데이터셋의 사용과 저작권법
Part 1 빅 데이터 포털
Chapter 1 데이터 포털
001. 텐서플로 데이터셋
002. AI Hub
003. 공공데이터포털
004. 야후(Yahoo!) 데이터셋
Part 2 영상 데이터
Chapter 2 이미지 분류(Image Classification)
005. FGVC - 항공기 사진
006. MNIST - 숫자 손 글씨
007. Fashion MNIST - 패션의류
008. Omniglot - 알파벳 손 글씨
009. Quick, Draw! - 손그림
010. CIFAR-10 - 실물 오브젝트
011. CIFAR-100 - 실물 오브젝트
012. CUB-200 - 조류 사진
013. SVHN - 현실 숫자
014. Conflict Stimuli - CNN 일반화
015. iNaturalist - 자연 사진
016. So2Sat - 인공위성 사진
017. SI-SCORE - CNN 일반화
018. CO3D - 객체 다각도 촬영
Chapter 3 탐지 및 표지(Detection and Segmentation)
019. COCO - 대규모 종합 영상 데이터
020. Open Image V6 - 대규모 종합 영상 데이터
021. Sculuptures 6K - 조각상 찾기
022. Oxford-IIIT Pet - 동물 사진
023. Penguin - 펭귄 찾기
024. DAVIS - 비디오 세그멘테이션
Chapter 5 안면인식(Human Face Recognition)
029. FairFace - 다인종 얼굴
030. CelebA - 유명인 얼굴
031. CelebA Mask-HQ - 얼굴 조작
032. AFLW- 얼굴 3차원 정보
033. LS3D-W - 얼굴 3차원 정보
034. VGG-Face2 - 얼굴 인식
035. Celebrity Together - 얼굴 인식
036. Celebrity in Place - 인물과 장소 동시 인식
Chapter 6 자세인식(Human Pose Estimation)
037. Hand Dataset - 사람 손
038. Buffy Pose - 특정 포즈 인식
039. Buffy Stickman - 자세인식
040. VGG HPE - 자세인식
041. Sign Language Pose - 수화인식
042. LSP - 스포츠 포즈
043. MPI-INF-3DHP - 자세 추론
044. Human 3.6M - 대규모 인체 데이터
045. 3DPW - 3D 자세 추론
Chapter 7 자율주행(Autonomous Driving)
046. BDD100K - 대규모 자율주행 데이터
047. KITTI - 대규모 자율주행 데이터
048. Cityscape - 길거리 세그멘테이션
049. Cityscape 3D - 탈것 인식
050. CULane - 도로만 인식
Chapter 8 비디오(Video)
051. Vox Converse - 발화자 찾기
052. VGG-Sound - Audio-Visual
053. MoCA - 은신 중인 동물 찾기
054. Condensed Movie - 영화 클립
055. Sherlock TV Series - 안면 인식
056. LAEO - Human Interaction
057. TV Human Interaction - Human Interaction
058. SCV - 스타크래프트2 플레이 영상
059. Fake AVCeleb - 딥페이크 감지
Chapter 10 의료 영상(Medical Images)
066. MimickNet - 영상 재건
067. CBIS-DDSM - 유방암 조영
068. CCH - 현미경 사진
069. BCCD - 혈구
070. Malaria - 말라리아 감염 혈액
071. MSD - Medical Image Segmentation
072. VFP290K - 실신 환자 찾기
Chapter 11 그 외 영상 데이터(Other Visual Data)
073. SynthText - OCR
074. MJSynth - OCR
075. Oxford Buildings- 객체 인식
076. S3O4D - 다각도 랜더링
077. 3D Shapes - 다각도 렌더링
078. NYU Depth - 깊이 추론
079. DMLab - 깊이 추론
Part 3 자연어 처리 데이터
Chapter 12 영어 자연어 처리(NLP(EN))
080. WikiBio - 위키피디아 문서
081. GPT2 Output - 대규모 텍스트
082. Summ Screen - 대화 요약
083. Long Summarization - 논문 요약
084. PubMed Crawl - 논문 정보 수집
085. DART - 시멘틱 트리플렛
086. Twitch Chat - 트위치 채팅
CHAPTER 13 한국어 자연어 처리(NLP(KR))
087. ParaKQC - 질문과 명령
088. Chatbot_data - 챗봇
089. ClovaCall - 음성 대화
090. KorQuAD 2.0 - 질의응답
091. Song-NER - 개체명 인식
092. KMOUNLP-NER - 개체명 인식
093. Sci-News-Sum-Kr-50 - 뉴스 요약
094. Petitions - 청와대 국민청원
095. KLUE - 한국어 이해
096. KorNLU - 문장 분류 및 유사성
097. NSMC - 네이버 영화 리뷰
098. Toxic Comment - NSMC 감정 상세화
099. 3i4K - 발화 의도 분석
100. Korean Hate Speech - 혐오발언
101. KAIST Corpus - 코퍼스 데이터셋 모음
CHAPTER 14 질의응답(Question Answering)
102. ARC - 지능검사 문제
103. ARM - 행렬추론
104. AI2 ARC - 과학 시험문제
105. NQ-Open - 영어 질의응답
106. SQuAD - 독해 기반 질의응답
107. CoQA - 대화 기반 질의응답
CHAPTER 16 음성 발화(Speech and Voices)
114. Spoken Digit - 음성 MNIST
115. Libri Speech - 대규모 음성 코퍼스
116. LibriTTS - 음성 코퍼스
117. LJSpeech - 오디오북
118. Common Voice Corpus - 대규모 음성 코퍼스
119. CREMA-D - 감정 인식
120. VoxCeleb2 - 대규모 발화 데이터
121. LRW - 입술 읽기(단어)
122. LRS3-TED - 입술 읽기(문장)
CHAPTER 17 음악 및 소리(Music and Sound)
123. FUSS - 소리 분해
124. CMM - 클래식 음악
125. GMD - 전자 드럼
126. E-GMD - 전자 드럼
127. NSynth - 대규모 악보
128. Bach Doodle - 화음
129. MAESTRO - 피아노 연주
PART 5 강화학습 데이터
CHAPTER 18 강화학습(Reinforcement Learning Environments)
130. Green House - 온실 시뮬레이션
131. OpenAI GYM - 대규모 강화학습 환경들
132. D4RL - 대규모 강화학습 환경들
PART 6 과학기술 데이터
CHAPTER 19 생명과학(Biology)
133. GDC - 암 유전자 포털
134. CTPR - 항암 약물치료 반응
135. KEGG - 유전자 & 물질대사
136. OOD - 박테리아 유전자
137. COVID-19 Open-Data - 코로나19
상상텃밭(주)의 CTO로 재직 중이며, 15여권의 도서를 출간한 작가다. "지금 수입이 있음에도 나누지 않는다면, 더 성장한 이후에도 나누지 못하는 삶을 살 것이다." 라는 생각으로 과감하게 자선 활동을 시작하였다. 그리하여 개최된 것이 바로 [제1회 꿈꾸는 청소년 공모전]이다. 현재 인공지능 기술을 접목하여 농업 분야의 신기술을 발명하고 있으며, IT분야의 지식을 누구나 쉽게 이해할 수 있는 형태로 보급하기 위하여 집필활동을 병행하고 있다.
1993년 6월 30일 경북 안동 출생. KAIST 바이오 및 뇌공학과에서 학사와 석사학위(조기졸업)를 취득했다. 졸업 후 한가로이 인공지능 개발에 몰두하고 있었으나 불과 3개월 만에 입영 영장이 날아와 2018년 6월부터 2020년 4월까지 안동노동청에서 사회복무요원으로 병역의 의무를 다했다. 복무 중 업무 자동화 프로그램을 개발하여 6개월 치 업무를 30분 만에 끝냄으로써 큰 이슈가 되었고, 청와대와 고용노동부를 비롯한 기관에 불려 다니며 기술 자문과 강연을 제공했다. 패스트캠퍼스와 유튜브 등의 매체를 통해 강의를 제공하고 있기도 하다.
상상텃밭(주)의 CTO로 재직 중이며, 15여권의 도서를 출간한 작가다. "지금 수입이 있음에도 나누지 않는다면, 더 성장한 이후에도 나누지 못하는 삶을 살 것이다." 라는 생각으로 과감하게 자선 활동을 시작하였다. 그리하여 개최된 것이 바로 [제1회 꿈꾸는 청소년 공모전]이다. 현재 인공지능 기술을 접목하여 농업 분야의 신기술을 발명하고 있으며, IT분야의 지식을 누구나 쉽게 이해할 수 있는 형태로 보급하기 위하여 집필활동을 병행하고 있다.
1993년 6월 30일 경북 안동 출생. KAIST 바이오 및 뇌공학과에서 학사와 석사학위(조기졸업)를 취득했다. 졸업 후 한가로이 인공지능 개발에 몰두하고 있었으나 불과 3개월 만에 입영 영장이 날아와 2018년 6월부터 2020년 4월까지 안동노동청에서 사회복무요원으로 병역의 의무를 다했다. 복무 중 업무 자동화 프로그램을 개발하여 6개월 치 업무를 30분 만에 끝냄으로써 큰 이슈가 되었고, 청와대와 고용노동부를 비롯한 기관에 불려 다니며 기술 자문과 강연을 제공했다. 패스트캠퍼스와 유튜브 등의 매체를 통해 강의를 제공하고 있기도 하다.