심층강화학습

이창환

홍릉

$29.16

SKU

9791156001003

[Free shipping over $100]

Standard Shipping estimated by Fri 05/9 - Thu 05/15 (주문일로부 10-14 영업일)

Express Shipping estimated by Tue 05/6 - Thu 05/8 (주문일로부 7-9 영업일)

* 안내되는 배송 완료 예상일은 유통사/배송사의 상황에 따라 예고 없이 변동될 수 있습니다.

Publication Date	2023/06/19
Pages/Weight/Size	18525530mm
ISBN	9791156001003
Categories	IT 모바일 > 컴퓨터 공학

Skip to the end of the images gallery

Skip to the beginning of the images gallery

Contents

1부 강화학습

CHAPTER 01 강화학습의 개요
1.1 인공지능과 기계학습
1.2 기계학습의 방법들
1.3 강화학습의 소개
1.4 강화학습의 응용분야
1.5 요약

CHAPTER 02 마르코프 결정 프로세스
2.1 마르코프 모델
2.2 마르코프 보상 프로세스(MRP)
2.3 마르코프 결정 프로세스(MDP)
2.4 최적 가치값과 최적 정책
2.5 부분관측 마르코프 결정 프로세스

CHAPTER 03 동적 프로그래밍
3.1 동적 프로그래밍의 조건
3.2 정책평가
3.3 컨트롤
3.5 가치값 반복
3.6 일반화된 정책반복
3.7 요약

CHAPTER 04 모델프리 정책평가
4.1 모델프리 환경
4.2 몬테카를로 정책평가 방법
4.3 TD 학습
4.4 몬테카를로와 TD의 배치 학습
4.5 TD(n) 학습
4.6 TD(λ) 학습
4.7 요약

CHAPTER 05 모델프리 컨트롤
5.1 몬테카를로 일반화된 정책반복
5.2 ε-탐욕방법 정책향상
5.3 TD 학습
5.4 Sarsa 방법
5.5 Sarsa(λ) 학습
5.6 오프정책
5.7 Q 학습
5.8 더블 Q 학습
5.9 요약

2부 심층강화학습

CHAPTER 06 가치값 근사함수
6.1 가치값 표시방법
6.2 가치값 근사함수방법
6.3 점진적 하강 방법
6.4 목적값이 주어진 가치값 근사함수 학습
6.5 몬테카를로 근사함수방법
6.6 TD 학습 근사함수방법
6.7 TD(l) 근사함수방법
6.8 적정성추적
6.9 모델프리 환경의 가치값 근사함수
6.10 요약

CHAPTER 07 심층신경망과 최적화 학습
7.1 인공신경망
7.2 신경망의 학습방법
7.3 심층신경망
7.4 심층신경망의 종류
7.5 요약

CHAPTER 08 심층 Q 네트워크
8.1 심층강화학습
8.2 심층 Q 네트워크
8.3 Atari 게임에서의 DQN
8.4 더블 DQN
8.5 듀얼 DQN
8.6 순환 DQN
8.7 요약

CHAPTER 09 정책 그레디언트
9.1 정책기반 강화학습
9.2 정책 네트워크
9.3 정책 목적함수
9.4 정책 최적화
9.5 정책 그레디언트 정리
9.6 REINFORCE 알고리즘
9.7 액터-크리틱 방법
9.8 GAE
9.9 요약

CHAPTER 10 고급 정책 그레디언트
10.1 A3C 282
10.2 최대엔트로피 강화학습 291
10.3 TRPO 294
10.4 PPO 312
10.5 DDPG 315
10.6 TD3 322
10.7 요약 326

CHAPTER 11 모방 학습
11.1 보상값의 예측
11.2 행동복제
11.3 DAGGER
11.4 역강화학습
11.5 속성매칭
11.6 도제학습
11.7 GAIL
11.8 요약

CHAPTER 12 새로운 강화학습
12.1 다중 에이전트 강화학습
12.2 계층 강화학습

Author

이창환