강화학습 이론&실습

기초 수학부터 강화학습 알고리즘까지
$36.23
SKU
9791165922450
+ Wish
[Free shipping over $100]

Standard Shipping estimated by Fri 12/6 - Thu 12/12 (주문일로부 10-14 영업일)

Express Shipping estimated by Tue 12/3 - Thu 12/5 (주문일로부 7-9 영업일)

* 안내되는 배송 완료 예상일은 유통사/배송사의 상황에 따라 예고 없이 변동될 수 있습니다.
Publication Date 2023/10/04
Pages/Weight/Size 188*245*30mm
ISBN 9791165922450
Categories IT 모바일 > 컴퓨터 공학
Description
충실한 이론 배경과 간결한 파이썬 코드를 활용하여
어렵게만 느껴지는 인공지능 강화학습 알고리즘을 내 도구로 만드는 길잡이.


ChatGPT로 다시금 떠오른 화두인 인공지능 알고리즘 중 강화학습을 배우는 데 초점을 둔 책입니다. 인공지능은 논문과 전공책으로 무작정 공부하기에 다양한 배경 지식이 요구되어 도전하기 어려운 분야입니다. 본 책은 강화학습을 배우기 위해 필요한 사전 지식들을 최대한 쉽고 자세하게 정리하여 초심자들이 느끼는 진입 장벽을 최대한 낮춤과 동시에, 다양한 예제와 기본이 되는 알고리즘을 상세하게 설명하여 책을 읽고 난 뒤 강화학습을 연구하는 데 도움이 될 수 있도록 하였습니다. 또한 예제들을 실제로 해결해보면 인공지능이 스스로 사람이 설정한 목표로 문제를 해결하는 동영상들을 확인할 수 있으므로 독자 여러분은 살아있는 공부를 경험하게 되어 어렵게만 느껴졌던 이론을 재미있게 학습하실수 있을 것입니다.
Contents
프롤로그

1. 환경 설정

1.1 윈도우 버전
1.2 리눅스 버전

2. 강화 학습을 위한 사전 지식

2.1 머신 러닝과 강화 학습
2.1.1 머신 러닝
2.1.2 강화 학습
2.2 기초 수학
2.2.1 기초 선형 대수
2.2.2 기초 미분과 적분
2.2.3 기초 확률 통계
2.3 최적화
2.3.1 뉴턴-랩슨법(Newton-Raphson method)
2.3.2 경사 하강법(Gradient descent method)
2.4 목적 함수
2.4.1 최소 제곱
2.4.2 확률 엔트로피와 쿨백-라이블러 발산
2.5 인공 신경망
2.5.1 신호 전·후 처리
2.5.2 순방향 전파
2.5.3 역방향 전파
2.6 초간단 파이토치 튜토리얼
2.6.1 MNIST
2.6.2 회귀 분석
2.7 매개 변수 탐색법
2.7.1 격자 탐색법(Grid search)
2.7.2 베이지안 탐색법(Bayesian optimization)

3. 마르코프 의사 결정과 동적 계획법 풀이 전략

3.1 마르코프 의사 결정
3.2 동적 계획법
3.3 [실습] 잭의 렌터카 업체 운영 전략 - 동적 계획법을 이용한 마르코프 의사 결정

4. 밸만 방정식부터 강화 학습까지

4.1 몬테-카를로 추정법
4.2 시간차 학습
4.2.1 TD(0)
4.2.2 TD(λ)
4.3 Monte-Carlo vs Temporal Difference
4.4 에이전트 학습
4.4.1 SARSA
4.4.2 Q-learning
4.4.3 실습

5. Q-함수는 신경망에 맡긴다 - DQN

5.1 DQN 208
5.1.1 이론 209
5.1.2 실습 219
5.2 파생 알고리즘 256
5.2.1 DDQN 256
5.2.2 PER 260

6. 즉각적인 학습이 필요할 때 - Policy gradient

6.1 Actor-Critic
6.1.1 이론
6.1.2 실습
6.2 파생 알고리즘
6.2.1 Asynchronous Advantage Actor-Critic
6.2.2 LSTM-Based Advantage Actor-Critic
6.2.3 [고급] Trust Region Policy Optimization
6.2.4 [고급] Proximal Policy Optimization

7. 탐험의 전략 - Model based learning

7.1 사전 지식 - 밴딧 모델
7.2 이론 - Monte-Carlo Tree Search
7.3 실습
7.3.1 CartPole
7.3.2 Tic-Tac-Toe
Author
황현석
부산대학교에서 자연과학을 공부하고 서울대학교에서 계산과학 분야로 전공을 바꾸어 공학석사 학위를 취득했다. 공식 교과과정에서 편미분 방정식을 푸는 방식을 배울 때 대학원 시절 동안 옆자리에 앉았던 동기가 인공지능을 공부하는 것을 보고 따라서 머신러닝을 조금씩 독학하기 시작했다. 머신러닝 분야 중 게임을 스스로 플레이 하는 인공지능을 보고 강화학습에 가장 큰 흥미를 느낀 뒤 취미 삼아 이론을 공부하고 개념을 구현하는 데 시간을 많이 보냈다. 어쩌다 보니 현재 인공지능 알고리즘을 적용하는 반도체 모델링을 타겟으로 하는 회사에서 인공지능을 전자회로 시뮬레이터에 접목하는 업무를 맡고 있다.
부산대학교에서 자연과학을 공부하고 서울대학교에서 계산과학 분야로 전공을 바꾸어 공학석사 학위를 취득했다. 공식 교과과정에서 편미분 방정식을 푸는 방식을 배울 때 대학원 시절 동안 옆자리에 앉았던 동기가 인공지능을 공부하는 것을 보고 따라서 머신러닝을 조금씩 독학하기 시작했다. 머신러닝 분야 중 게임을 스스로 플레이 하는 인공지능을 보고 강화학습에 가장 큰 흥미를 느낀 뒤 취미 삼아 이론을 공부하고 개념을 구현하는 데 시간을 많이 보냈다. 어쩌다 보니 현재 인공지능 알고리즘을 적용하는 반도체 모델링을 타겟으로 하는 회사에서 인공지능을 전자회로 시뮬레이터에 접목하는 업무를 맡고 있다.