텐서플로 2와 BERT, GPT를 활용해 구현한 한국어 자연어 처리 모델의 성능을 한층 끌어올리는
퓨샷 러닝과 피-튜닝 기법을 추가했다!
이 책은 다른 자연어 처리 서적과는 다른 세 가지 특징이 있다. 첫째, 자연어 처리에 활용되는 개념적인 설명에서 끝나는 것이 아니라 모델 구현에 집중한다. 둘째, 실무에서 자연어 처리 문제를 해결하는 데 도움이 되고자 감정분석부터 유사도 처리, 챗봇 그리고 버트와 GPT에서 할 수 있는 모든 하위 문제를 다룹니다. 셋째, 영어 데이터뿐만 아니라 한글 데이터를 활용한 문제 해결까지 다룬다.
또한 두 차례의 개정을 통해, 다양한 자연어 처리 문제를 사전학습 모델인 버트와 GPT2를 통해 푸는 법과 GPT3에 대한 소개도 추가했다. 새롭게 추가된 8장까지의 모든 실습을 수행하고 나면 한층 더 높은 수준의 최신 자연어 처리 기법을 이해할 수 있다. 실습을 통해 자연어 처리를 다룰 자신감이 생겼다면 여러분은 이미 딥러닝 자연어 처리 전문가로서의 첫발을 내디딘 것이다.
Contents
01장: 들어가며
배경
이 책의 목표와 활용법
실습 환경 구축
__아나콘다 설치
__가상 환경 구성
__실습 프로젝트 구성
__pip 설치
__주피터 노트북
정리
02장: 자연어 처리 개발 준비
텐서플로
__tf.keras.layers
__TensorFlow 2.0
사이킷런
__사이킷런을 이용한 데이터 분리
__사이킷런을 이용한 지도 학습
__사이킷런을 이용한 비지도 학습
__사이킷런을 이용한 특징 추출
__TfidfVecotorizer
자연어 토크나이징 도구
__영어 토크나이징 라이브러리
__한글 토크나이징 라이브러리
그 밖의 라이브러리(전처리)
__넘파이
__판다스
__Matplotlib
__맷플롯립 설치
__Matplotlib.pyplot
__re
캐글 사용법
정리
03장: 자연어 처리 개요
단어 표현
텍스트 분류
__텍스트 분류의 예시
텍스트 유사도
자연어 생성
기계 이해
데이터 이해하기
정리
04장: 텍스트 분류
영어 텍스트 분류
__문제 소개
__데이터 분석 및 전처리
__모델링 소개
__회귀 모델
__TF-IDF를 활용한 모델 구현
__랜덤 포레스트 분류 모델
__순환 신경망 분류 모델
__합성곱 신경망 분류 모델
__마무리
한글 텍스트 분류
__문제 소개
__데이터 전처리 및 분석
__모델링
__참고 자료
정리
05장: 텍스트 유사도
문제 소개
데이터 분석과 전처리
__XG 부스트 텍스트 유사도 분석 모델
모델링
__CNN 텍스트 유사도 분석 모델
__MaLSTM
정리
06장: 챗봇 만들기
데이터 소개
데이터 분석
시퀀스 투 시퀀스 모델
__모델 소개
트랜스포머 모델
__모델 구현
정리
07장: 사전 학습 모델
버트
버트를 활용한 미세 조정 학습
__버트를 활용한 한국어 텍스트 분류 모델
__버트를 활용한 한국어 자연어 추론 모델
__버트를 활용한 한국어 개체명 인식 모델
__버트를 활용한 한국어 텍스트 유사도 모델
__버트를 활용한 한국어 기계 독해 모델
GPT
__GPT1
__GPT2
GPT2를 활용한 미세 조정 학습
__GPT2를 활용한 한국어 언어 생성 모델
__GPT2를 활용한 한국어 텍스트 분류 모델
__GPT2를 활용한 한국어 자연어 추론 모델
__GPT2를 활용한 한국어 텍스트 유사도 모델
정리
08장: GPT3
GPT3 개요
퓨샷 러닝
퓨샷 러닝을 활용한 텍스트 분류
__퓨샷 러닝을 위한 네이버 영화 리뷰 모델 구성
__퓨샷 러닝을 위한 네이버 영화 리뷰 데이터 구성
__네이버 영화 리뷰 데이터를 활용한 퓨샷 러닝 및 평가
피-튜닝
__개요
__피-튜닝 방법론
__피-튜닝을 활용한 텍스트 분류 적용
Author
전창욱,최태균,조중현,신성진
배우고 성장하기 위해 끊임없이 공부하는 것을 즐기며, 해마다 목표를 정하고 이뤄가는 재미에 푹 빠져 살아가고 있습니다. 배운 것을 만들어 보고 이론과 실습을 함께 키워나가고 삶의 방향성을 찾기 위해 책을 읽는 시니어 개발자입니다. 머신러닝 공부를 하면서 2016년 Google Hack Fair, Seoul Make Fair에 참여했고, 국립과천과학관 관장상과 2017년 서울혁신챌린지 혁신챌린지상을 수상했으며, KBS 시사교양 프로그램인 『명견만리』에 출연하고, 2018년 국어 정보처리 시스템 경진대회에서 금상을 수상, 2019년 국어 정보처리 학회에서 논문 발표, 2020년 LG AWARDS를 수상, 2020년 7월 현재 Korquad 1.0에서 1위를 차지하고 있습니다. 전 DeepNLP 연구실 리더였으며, 현재는 LG에서 딥러닝을 활용한 자연어처리 연구 개발을 하고 있습니다
배우고 성장하기 위해 끊임없이 공부하는 것을 즐기며, 해마다 목표를 정하고 이뤄가는 재미에 푹 빠져 살아가고 있습니다. 배운 것을 만들어 보고 이론과 실습을 함께 키워나가고 삶의 방향성을 찾기 위해 책을 읽는 시니어 개발자입니다. 머신러닝 공부를 하면서 2016년 Google Hack Fair, Seoul Make Fair에 참여했고, 국립과천과학관 관장상과 2017년 서울혁신챌린지 혁신챌린지상을 수상했으며, KBS 시사교양 프로그램인 『명견만리』에 출연하고, 2018년 국어 정보처리 시스템 경진대회에서 금상을 수상, 2019년 국어 정보처리 학회에서 논문 발표, 2020년 LG AWARDS를 수상, 2020년 7월 현재 Korquad 1.0에서 1위를 차지하고 있습니다. 전 DeepNLP 연구실 리더였으며, 현재는 LG에서 딥러닝을 활용한 자연어처리 연구 개발을 하고 있습니다