트랜스포머는 딥러닝 분야에서 성능이 우수한 모델로 현대 인공지능 분야의 핵심 기술이다. 트랜스포머와 비전 트랜스포머 기술을 습득하면 차별화된 역량을 갖출 수 있고 복잡한 문제를 해결할 수 있다. 이 책에서는 자연어 처리와 컴퓨터비전 분야의 기초 실습부터 배포까지 딥러닝 프로젝트(서비스)를 구축하기 위한 다양한 정보를 다룬다. 또한, 트랜스포머 및 비전 트랜스포머 이론을 비롯해 모델을 이해하고 실습을 진행한다. 이 책은 최신 자연어 처리와 컴퓨터비전 분야의 동향과 심층학습에 대한 포괄적인 내용을 담고 있으며, 실전 예제를 통해 강력한 모델을 구축하고자 하는 분들에게 추천한다.
Contents
1부 파이토치 시작하기
01장: 인공지능과 방법론
인공지능이란?
__인공지능 역사
__인공지능 활용 분야
머신러닝 시스템
__지도 학습
__비지도 학습
__준지도 학습
__강화 학습
머신러닝 아키텍처
__데이터 준비
__모델링
__모델 평가
__모델 배포
MLOps
02장: 파이토치 설치
파이토치란?
파이토치 특징
파이토치 설치
__파이토치 CPU 설치
__파이토치 GPU 설치
__Google Colaboratory
03장: 파이토치 기초
텐서
__텐서 생성
__텐서 속성
__차원 변환
__자료형 설정
__장치 설정
__장치 변환
__넘파이 배열의 텐서 변환
__텐서의 넘파이 배열 변환
가설
__머신러닝에서의 가설
__통계적 가설 검정 사례
손실 함수
__제곱 오차
__오차 제곱합
__평균 제곱 오차
__교차 엔트로피
최적화
__경사 하강법
__학습률
__최적화 문제
__단순 선형 회귀: 넘파이
__단순 선형 회귀: 파이토치
데이터세트와 데이터로더
__데이터세트
__데이터로더
__다중 선형 회귀
모델/데이터세트 분리
__모듈 클래스
__비선형 회귀
__모델 평가
__데이터세트 분리
모델 저장 및 불러오기
__모델 전체 저장/불러오기
__모델 상태 저장/불러오기
__체크포인트 저장/불러오기
활성화 함수
__이진 분류
__시그모이드 함수
__이진 교차 엔트로피
__이진 분류: 파이토치
__비선형 활성화 함수
순전파와 역전파
__순전파 계산
__오차 계산
__역전파 계산
__갱신 결과 비교
퍼셉트론
__단층 퍼셉트론
__다층 퍼셉트론
__퍼셉트론 모델 실습
04장: 파이토치 심화
과대적합과 과소적합
__과대적합과 과소적합 문제 해결
배치 정규화
__정규화 종류
__배치 정규화 풀이
가중치 초기화
__상수 초기화
__무작위 초기화
__제이비어 & 글로럿 초기화
__카이밍 & 허 초기화
__직교 초기화
__가중치 초기화 실습
정칙화
__L1 정칙화
__L2 정칙화
__가중치 감쇠
__모멘텀
__엘라스틱 넷
__드롭아웃
__그레이디언트 클리핑
데이터 증강 및 변환
__텍스트 데이터
__이미지 데이터
사전 학습된 모델
__백본
__전이 학습
__특징 추출 및 미세 조정
2부 자연어 처리
05장: 토큰화
단어 및 글자 토큰화
__단어 토큰화
__글자 토큰화
형태소 토큰화
__형태소 어휘 사전
__KoNLPy
__NLTK
__spaCy
하위 단어 토큰화
__바이트 페어 인코딩
__워드피스
06장: 임베딩
언어 모델
__자기회귀 언어 모델
__통계적 언어 모델
N-gram
TF-IDF
__단어 빈도
__문서 빈도
__역문서 빈도
__TF-IDF
Word2Vec
__단어 벡터화
__CBoW
__Skip-gram
__계층적 소프트맥스
__네거티브 샘플링
__모델 실습: Skip-gram
__모델 실습: Gensim
fastText
__모델 실습
순환 신경망
__순환 신경망
__장단기 메모리
__모델 실습
합성곱 신경망
__합성곱 계층
__활성화 맵
__풀링
__완전 연결 계층
__모델 실습
07장: 트랜스포머
Transformer
__입력 임베딩과 위치 인코딩
__특수 토큰
__트랜스포머 인코더
__트랜스포머 디코더
__모델 실습
GPT
__GPT-1
__GPT-2
__GPT-3
__GPT 3.5
__GPT-4
__모델 실습
BERT
__사전 학습 방법
__모델 실습
BART
__사전 학습 방법
__미세 조정 방법
__모델 실습
ELECTRA
__사전 학습 방법
__모델 실습
T5
__모델 실습
3부 컴퓨터 비전
08장: 이미지 분류
AlexNet
__LeNet-5와 AlexNet
__모델 학습
__모델 추론
VGG
__AlexNet과 VGG-16
__모델 구조 및 데이터 시각화
__미세 조정 및 모델 학습
ResNet
__ResNet의 특징
__모델 구현
Grad-CAM
__클래스 활성화 맵
__Grad-CAM
09장: 객체 탐지
Faster R-CNN
__R-CNN
__Fast R-CNN
__Faster R-CNN
__모델 학습 과정
__모델 실습
SSD
__멀티 스케일 특징 맵
__기본 박스
__모델 학습 과정
__모델 실습
FCN
__업샘플링
__모델 구조
__모델 실습
Mask R-CNN
__특징 피라미드 네트워크
__관심 영역 정렬
__마스크 분류기
__모델 실습
YOLO
__YOLOv1
__YOLOv2
__YOLOv3
__YOLOv4 / YOLOv5
__YOLOv6 / YOLOv7
__모델 실습: YOLOv8
10장: 비전 트랜스포머
ViT
__합성곱 모델과 ViT 모델 비교
__ViT의 귀납적 편향
__ViT 모델
__패치 임베딩
__인코더 계층
__모델 실습
Swin Transformer
__ViT와 스윈 트랜스포머 차이
__스윈 트랜스포머 모델 구조
__모델 실습
CvT
__합성곱 토큰 임베딩
__어텐션에 대한 합성곱 임베딩
__모델 실습
4부 서비스 모델링
11장: 모델 배포
모델 경량화
__양자화
__지식 증류
__텐서 분해
__ONNX
모델 서빙
__모델 서빙 웹 프레임워크
__포스트맨
도커 배포
__도커란?
__빌드 및 배포
데모 애플리케이션
__스트림릿
__애플리케이션 배포
__파이토치 모델 연동
부록A: 파이토치 라이트닝
__모델 학습
__트레이너 클래스
부록B: 허깅 페이스
__PreTrainedConfig 클래스
__PreTrainedModel 클래스
__PreTrainedTokenizer 클래스
__PreTrainedFeatureExtractor 클래스
__PreTrainedImageProcessor 클래스
__Auto 클래스
__트레이너 클래스
부록C: 파이토치 이미지 모델
__모델 생성
__사전 학습된 모델
__미세 조정
부록D: 파이토치 컴파일러
부록E: 메모리 부족
Author
윤대희,김동화,송종민,진현두
어반베이스의 머신러닝 팀 리더로 근무하면서 컴퓨터비전과 딥러닝을 활용해 2D 도면을 3D로 변환하는 프로젝트를 진행했다. 현재는 카카오스타일의 Vision&NLP 팀 리더로 데이터 리터러시, 데이터 패브릭, MLOps 등 관련 프로젝트를 진행하고 있다. 머신러닝·딥러닝을 비롯해 데이터 품질 관리, 데이터 통합, 비즈니스 인텔리전스 등 데이터 통합에 관심이 있으며, 기술 공유 및 확장 플러그인 배포 등으로 개인이나 조직이 기술을 보다 쉽게 이용하고 활용할 수 있도록 도움을 주고 있다. 저서로 《C#과 파이썬을 활용한 OpenCV 4 프로그래밍》(위키북스, 2021)이 있다.
어반베이스의 머신러닝 팀 리더로 근무하면서 컴퓨터비전과 딥러닝을 활용해 2D 도면을 3D로 변환하는 프로젝트를 진행했다. 현재는 카카오스타일의 Vision&NLP 팀 리더로 데이터 리터러시, 데이터 패브릭, MLOps 등 관련 프로젝트를 진행하고 있다. 머신러닝·딥러닝을 비롯해 데이터 품질 관리, 데이터 통합, 비즈니스 인텔리전스 등 데이터 통합에 관심이 있으며, 기술 공유 및 확장 플러그인 배포 등으로 개인이나 조직이 기술을 보다 쉽게 이용하고 활용할 수 있도록 도움을 주고 있다. 저서로 《C#과 파이썬을 활용한 OpenCV 4 프로그래밍》(위키북스, 2021)이 있다.