142가지 데이터셋

AI와 빅데이터 관련 연구·개발에 꼭 필요한 데이터셋을 총정리한 책!

AI와 빅데이터 관련 연구나 개발 업무를 위해서는 먼저 데이터셋을 만들거나 검증된 데이터셋을 찾아야 합니다. 이 책은 여러 분야별로 검증된 데이터셋만을 소개하고 저작권과 관련 논문까지 안내하고 있습니다. 이것은 AI와 빅데이터 시대에 꼭 필요한 책입니다. 데이터셋들의 백업본을 별도로 제공하고 있으므로 이 책을 한 번 구매하면, 원본 출처 사이트에 문제가 생기더라도 데이터셋을 구할 수 있습니다.

도서 홈페이지 : https://needleworm.github.io/dataset

CHAPTER 0 데이터셋 사용 안내
SECTION 01 이 책을 활용하는 방법
SECTION 02 데이터셋의 사용과 저작권법

Part 1 빅 데이터 포털

Chapter 1 데이터 포털
001. 텐서플로 데이터셋
002. AI Hub
003. 공공데이터포털
004. 야후(Yahoo!) 데이터셋

Part 2 영상 데이터

Chapter 2 이미지 분류(Image Classification)
005. FGVC - 항공기 사진
006. MNIST - 숫자 손 글씨
007. Fashion MNIST - 패션의류
008. Omniglot - 알파벳 손 글씨
009. Quick, Draw! - 손그림
010. CIFAR-10 - 실물 오브젝트
011. CIFAR-100 - 실물 오브젝트
012. CUB-200 - 조류 사진
013. SVHN - 현실 숫자
014. Conflict Stimuli - CNN 일반화
015. iNaturalist - 자연 사진
016. So2Sat - 인공위성 사진
017. SI-SCORE - CNN 일반화
018. CO3D - 객체 다각도 촬영

Chapter 3 탐지 및 표지(Detection and Segmentation)
019. COCO - 대규모 종합 영상 데이터
020. Open Image V6 - 대규모 종합 영상 데이터
021. Sculuptures 6K - 조각상 찾기
022. Oxford-IIIT Pet - 동물 사진
023. Penguin - 펭귄 찾기
024. DAVIS - 비디오 세그멘테이션

Chapter 4 의미론적 연관성(Semantic Correspondence)
025. Animal Parts - 동물 신체부위
026. PF-PASCAL - Semantic Flow
027. SPair-71k - Semantic Correspondence
028. TTS - Semantic Correspondence

Chapter 5 안면인식(Human Face Recognition)
029. FairFace - 다인종 얼굴
030. CelebA - 유명인 얼굴
031. CelebA Mask-HQ - 얼굴 조작
032. AFLW- 얼굴 3차원 정보
033. LS3D-W - 얼굴 3차원 정보
034. VGG-Face2 - 얼굴 인식
035. Celebrity Together - 얼굴 인식
036. Celebrity in Place - 인물과 장소 동시 인식

Chapter 6 자세인식(Human Pose Estimation)
037. Hand Dataset - 사람 손
038. Buffy Pose - 특정 포즈 인식
039. Buffy Stickman - 자세인식
040. VGG HPE - 자세인식
041. Sign Language Pose - 수화인식
042. LSP - 스포츠 포즈
043. MPI-INF-3DHP - 자세 추론
044. Human 3.6M - 대규모 인체 데이터
045. 3DPW - 3D 자세 추론

Chapter 7 자율주행(Autonomous Driving)
046. BDD100K - 대규모 자율주행 데이터
047. KITTI - 대규모 자율주행 데이터
048. Cityscape - 길거리 세그멘테이션
049. Cityscape 3D - 탈것 인식
050. CULane - 도로만 인식

Chapter 8 비디오(Video)
051. Vox Converse - 발화자 찾기
052. VGG-Sound - Audio-Visual
053. MoCA - 은신 중인 동물 찾기
054. Condensed Movie - 영화 클립
055. Sherlock TV Series - 안면 인식
056. LAEO - Human Interaction
057. TV Human Interaction - Human Interaction
058. SCV - 스타크래프트2 플레이 영상
059. Fake AVCeleb - 딥페이크 감지

Chapter 9 농업 영상(Agricultural Images)
060.Citrus - 시트러스
061. Deep Weeds - 잡초
062. Plant Leaves - 잎사귀
063. Plant Village - 잎사귀
064. PlantaeK - 잎사귀
065. iBean - 콩잎

Chapter 10 의료 영상(Medical Images)
066. MimickNet - 영상 재건
067. CBIS-DDSM - 유방암 조영
068. CCH - 현미경 사진
069. BCCD - 혈구
070. Malaria - 말라리아 감염 혈액
071. MSD - Medical Image Segmentation
072. VFP290K - 실신 환자 찾기

Chapter 11 그 외 영상 데이터(Other Visual Data)
073. SynthText - OCR
074. MJSynth - OCR
075. Oxford Buildings- 객체 인식
076. S3O4D - 다각도 랜더링
077. 3D Shapes - 다각도 렌더링
078. NYU Depth - 깊이 추론
079. DMLab - 깊이 추론

Part 3 자연어 처리 데이터

Chapter 12 영어 자연어 처리(NLP(EN))
080. WikiBio - 위키피디아 문서
081. GPT2 Output - 대규모 텍스트
082. Summ Screen - 대화 요약
083. Long Summarization - 논문 요약
084. PubMed Crawl - 논문 정보 수집
085. DART - 시멘틱 트리플렛
086. Twitch Chat - 트위치 채팅

CHAPTER 13 한국어 자연어 처리(NLP(KR))
087. ParaKQC - 질문과 명령
088. Chatbot_data - 챗봇
089. ClovaCall - 음성 대화
090. KorQuAD 2.0 - 질의응답
091. Song-NER - 개체명 인식
092. KMOUNLP-NER - 개체명 인식
093. Sci-News-Sum-Kr-50 - 뉴스 요약
094. Petitions - 청와대 국민청원
095. KLUE - 한국어 이해
096. KorNLU - 문장 분류 및 유사성
097. NSMC - 네이버 영화 리뷰
098. Toxic Comment - NSMC 감정 상세화
099. 3i4K - 발화 의도 분석
100. Korean Hate Speech - 혐오발언
101. KAIST Corpus - 코퍼스 데이터셋 모음

CHAPTER 14 질의응답(Question Answering)
102. ARC - 지능검사 문제
103. ARM - 행렬추론
104. AI2 ARC - 과학 시험문제
105. NQ-Open - 영어 질의응답
106. SQuAD - 독해 기반 질의응답
107. CoQA - 대화 기반 질의응답

CHAPTER 15 기계번역(Machine Translation)
108. XQuAD - 다국어 질의응답
109. MLQA - 다국어 질의응답
110. TyDi - 다국어 질의응답
111. FloRes-101 - 101가지 언어 번역
112. Ted Talks - 테드 강연
113. KPC - 한국어, 영어, 불어 매핑

PART 4 소리 데이터

CHAPTER 16 음성 발화(Speech and Voices)
114. Spoken Digit - 음성 MNIST
115. Libri Speech - 대규모 음성 코퍼스
116. LibriTTS - 음성 코퍼스
117. LJSpeech - 오디오북
118. Common Voice Corpus - 대규모 음성 코퍼스
119. CREMA-D - 감정 인식
120. VoxCeleb2 - 대규모 발화 데이터
121. LRW - 입술 읽기(단어)
122. LRS3-TED - 입술 읽기(문장)

CHAPTER 17 음악 및 소리(Music and Sound)
123. FUSS - 소리 분해
124. CMM - 클래식 음악
125. GMD - 전자 드럼
126. E-GMD - 전자 드럼
127. NSynth - 대규모 악보
128. Bach Doodle - 화음
129. MAESTRO - 피아노 연주

PART 5 강화학습 데이터

CHAPTER 18 강화학습(Reinforcement Learning Environments)
130. Green House - 온실 시뮬레이션
131. OpenAI GYM - 대규모 강화학습 환경들
132. D4RL - 대규모 강화학습 환경들

PART 6 과학기술 데이터

CHAPTER 19 생명과학(Biology)
133. GDC - 암 유전자 포털
134. CTPR - 항암 약물치료 반응
135. KEGG - 유전자 & 물질대사
136. OOD - 박테리아 유전자
137. COVID-19 Open-Data - 코로나19

CHAPTER 20 화학(Chemistry)
138. iEnvCmplx - 화학 복잡계
139. iPlantNutrient - 식물-화학 복잡계 상호작용
140. OGB-LSC - 그래프 추론
141. ProteinNet - 단백질 분자구조
142. GDB - 유기물 분자구조

반병현

상상텃밭(주)의 CTO로 재직 중이며, 15여권의 도서를 출간한 작가다. "지금 수입이 있음에도 나누지 않는다면, 더 성장한 이후에도 나누지 못하는 삶을 살 것이다." 라는 생각으로 과감하게 자선 활동을 시작하였다. 그리하여 개최된 것이 바로 [제1회 꿈꾸는 청소년 공모전]이다. 현재 인공지능 기술을 접목하여 농업 분야의 신기술을 발명하고 있으며, IT분야의 지식을 누구나 쉽게 이해할 수 있는 형태로 보급하기 위하여 집필활동을 병행하고 있다.

1993년 6월 30일 경북 안동 출생. KAIST 바이오 및 뇌공학과에서 학사와 석사학위(조기졸업)를 취득했다. 졸업 후 한가로이 인공지능 개발에 몰두하고 있었으나 불과 3개월 만에 입영 영장이 날아와 2018년 6월부터 2020년 4월까지 안동노동청에서 사회복무요원으로 병역의 의무를 다했다. 복무 중 업무 자동화 프로그램을 개발하여 6개월 치 업무를 30분 만에 끝냄으로써 큰 이슈가 되었고, 청와대와 고용노동부를 비롯한 기관에 불려 다니며 기술 자문과 강연을 제공했다. 패스트캠퍼스와 유튜브 등의 매체를 통해 강의를 제공하고 있기도 하다.

Publication Date	2022/02/22
Pages/Weight/Size	17223012mm
ISBN	9788970505350
Categories	IT 모바일 > OS/데이터베이스