트랜스포머스 라이브러리를 활용하는 가장 쉬운 방법! 텍스트 번역·생성부터 음성, 이미지 인식까지 한번에 배운다!
허깅페이스 트랜스포머스(Transformers)는 여러 회사에서 독자적으로 개발한 트랜스포머 모델을 누구나 쉽게 사용하게 도와주는 라이브러리입니다. 책에서 제공하는 101가지 문제를 통해 허깅페이스 트랜스포머스 라이브러리를 쓰는 방법을 하나하나 알아봅니다. 트랜스포머스 모델에 대한 기본적인 이론뿐만 아니라 직접 코드를 작성하면서 주도적으로 문제를 해결하고 결과를 탐구하는 시간도 함께 다룹니다.
Contents
01장 파이프라인
_문제 001 구글 코랩 환경 설정
_문제 002 감성 분석
_문제 003 질의 응답
02장 DistillBERT 파인튜닝 및 평가
_사전준비: GPU 설정
_문제 004 IMDB 데이터세트
_문제 005 레이블 인코딩
_문제 006 학습 및 검증 데이터세트 분리
_문제 007 토크나이징 및 인코딩
_문제 008 데이터세트 클래스 생성
_문제 009 사전학습 모델 불러오기
_문제 010 TrainingArguments 설정
_문제 011 GPU로 전송
_문제 012 Trainer 클래스 사전학습
_문제 013 파이토치 사전학습
_CLIP란?
_문제 027 CLIP 모듈 설치
_문제 028 샘플 이미지 데이터세트
_문제 029 CLIP 기반 사전학습 모델 불러오기
_문제 030 CLIP 기반 사전학습 모델 신경망 구조
_문제 031 CLIP 전처리
_문제 032 전처리 후 이미지 확인
_문제 033 인코딩 및 디코딩
_문제 034 CLIP 추론
_문제 035 CLIP 추론에서 로짓 추출
_문제 036 CLIP 캡션 예측 결과
07장 Wav2Vec2 자동 음성 인식
_문제 037 Wav2Vec2 모듈 설치
_문제 038 Wav2Vec2 사전학습 모델 불러오기
_문제 039 자동 음성 인식 데이터세트 불러오기
_문제 040 코랩에서 오디오 데이터 확인
_문제 041 Wav2Vec2 전처리
_문제 042 Wav2Vec2 자동 음성 인식 실행
08장 BERT 다중 클래스 분류
_문제 043 다중 클래스 분류용 BERT 사전학습 모델 불러오기
_문제 044 데이터세트 준비
_문제 045 파인튜닝 없는 BERT 분류
_문제 046 BERT 분류 파인튜닝
_문제 047 파인튜닝 BERT 모델 학습 과정 시각화
_문제 048 파인튜닝 후 BERT 분류
_문제 049 분류 정확도
09장 BART 자동 요약
_문제 050 BART 라이브러리 설정 및 사전학습 모델 불러오기
_문제 051 정규식 활용 전처리
_문제 052 학습 모델 이전에 BART 토크나이징
_문제 053 BART 토크나이징 결과를 넘파이 어레이로 변경
_문제 054 BART 추론
_문제 055 BART 추론 결과 디코딩
10장 BERT 앙상블 학습
_문제 056 BERT 앙상블 학습 라이브러리 설정
_문제 057 BERT 앙상블 데이터세트 준비
_문제 058 BERT 앙상블 클래스 정의
_문제 059 앙상블 트레이닝에 사용할 사전학습 BERT 불러오기
_문제 060 BERT 앙상블 학습 - 데이터 증강
_문제 061 BERT 앙상블 학습 - 커스텀 데이터세트 정의
_문제 062 BERT 앙상블 학습 - DataLoader
_문제 063 BERT 앙상블 파인튜닝
_문제 064 학습 데이터세트를 활용한 BERT 앙상블 학습 및 예측
_문제 065 학습 데이터세트 이외의 BERT 앙상블 학습 및 예측
11장 BigBird
_문제 066 BigBird 라이브러리 설정 및 사전학습 모델 불러오기
_문제 067 BigBird 추론용 데이터세트 준비
_문제 068 BigBird 토크나이징 및 인코딩
_문제 069 BigBird 추론
12장 PEGASUS
_문제 070 PEGASUS 라이브러리 설정 및 사전학습 모델 불러오기
_문제 071 토크나이징 및 인코딩
_문제 072 PEGASUS 자동 요약
13장 M2M100 자동 번역
_문제 073 M2M100 라이브러리 설치 및 사전학습 모델 불러오기
_문제 074 M2M100 번역 소스로 중국어 텍스트 준비
_문제 075 소스 언어 M2M100 토크나이징
_문제 076 M2M100 중국어/영어 자동 변역
_문제 077 generate 메서드 결과물 디코딩
_문제 078 M2M100 번역 소스로 한국어 텍스트 준비
_문제 079 M2M100 한국어 텍스트 토크나이징
_문제 080 M2M100 한국어/영어 자동 번역
_문제 081 M2M100 번역 결과물 디코딩
14장 Mobile BERT
_문제 082 Mobile BERT 라이브러리 설치 및 사전학습 모델 불러오기
_문제 083 Mobile BERT vs BERT Tokenizer
_문제 084 Mobile BERT 추론 시 마지막 은닉층
_문제 085 Mobile BERT 빈칸 채우기 퀴즈
15장 GPT, DialoGPT, DistilGPT2
_문제 086 DistilGPT2 라이브러리 설치 및 사전학습 모델 불러오기
_문제 087 DistilGPT2 시각화
_문제 088 DistilGPT2 문장 생성
_문제 089 DialoGPT 모델(Diologe Text Pre-Learning Model) 불러오기
_문제 090 DialoGPT 문장 생성
16장 자연어 처리 실습 - BERT 및 tSNE
_문제 091 위키피디아 영문 키워드 검색
_문제 092 모더나 COVID-19 위키피디아 텍스트 가져오기
_문제 093 화이자 COVID-19 위키피디아 텍스트 가져오기
_문제 094 BERT 도큐먼트 벡터 처리 모듈 설치
_문제 095 BERT 사전학습 모델을 파이프라인에 불러오기
_문제 096 BERT 도큐먼트 벡터 표현 추출
_문제 097 BERT 벡터 차원, 단어 토크나이징 및 디코딩
_문제 098 BERT [CLS] 토큰의 도큐먼트 벡터 표현 함수 및 BERT 전처리
_문제 099 모더나/화이자 Covid-19 백신 BERT [CLS] 벡터 추출
_문제 100 토크나이저를 통한 빈도수 합산
_문제 101 모더나 vs 화이자 t-SNE 시각화
Author
조슈아 K. 케이지,임선집
와세다대학에서 School of Fundamental Science and Engineering을 전공했다. 관심 연구 분야로는 컴퓨터 네트워크 보안, 데이터마이닝, 머신러닝, 딥러닝 등이 있다.
와세다대학에서 School of Fundamental Science and Engineering을 전공했다. 관심 연구 분야로는 컴퓨터 네트워크 보안, 데이터마이닝, 머신러닝, 딥러닝 등이 있다.