최근 본 상품 (0)
  • 밑바닥부터 시작하는 딥러닝 4
    밑바닥부터 시작하는 딥러닝 4
    27,000
  • 2026 김승봉 레전드 형법 기본서(전2권)
    2026 김승봉 레전드 형법 기본서(전2권)
    38,700
1/13
밑바닥부터 시작하는 딥러닝 4
무료배송
밑바닥부터 시작하는 딥러닝 4
0.0
  • 이용후기
  • 상품문의
  • 정가
    30,000
  • 판매가
    27,000 10%
  • 적립금
    270원 (배송완료시 지급/이용후기 작성시 50원 지급) 1%
  • 배송비
    무료배송(우체국택배)
  • 소득공제
    추가 소득공제 가능 도서(자세히 보기)
  • 혜택
    [2025년 7월] 신용카드 무이자할부 이벤트
    [2025년 7월] 신용카드 무이자할부 이벤트 더보기+

    2025년 7월 카드사 무이자 할부 혜택 안내

    EVENT 01. 카드사 무이자 할부

    기간 카드사 할부적용 금액 할부개월 신청방법 비고
    25.07.01
    ~25.07.31
    현대카드 5만원 이상 2~3개월 별도 신청
    없이 적용
    PG업종만 제공
    롯데카드 2~5개월
    국민카드 2~5개월
    신한카드 2~3개월
    삼성카드 2~3개월
    비씨카드 2~5개월
    우리카드 2~5개월
    NH카드 2~6개월
    하나카드 2~5개월
    광주카드 2~7개월

    EVENT 02. 부분 무이자 할부

    기간 카드사 할부개월 고객부담 면제 비고
    25.07.01
    ~25.07.31
    삼성카드 7개월 1~3회차 잔여회차 면제 별도 신청 없이 적용
    11개월 1~5회차
    23개월 1~10회차
    현대카드 10개월 1~5회차 잔여회차 면제 별도 신청 없이 적용
    12개월 1~6회차
    신한카드 7개월 1~3회차 잔여회차 면제 별도 신청 없이 적용
    9개월 1~4회차
    11개월 1~5회차
    23개월 1~10회차
    국민카드 6개월 1~3회차 잔여회차 면제 별도 신청 없이 적용
    10개월 1~5회차
    하나카드 6개월 1~3회차 잔여회차 면제 별도 신청 없이 적용
    10개월 1~4회차
    12개월 1~5회차
    18개월 1~8회차
    BC카드 10개월 1~4회차 잔여회차 면제 별도 신청 없이 적용
    12개월 1~5회차
    우리카드 10개월 1~4회차 잔여회차 면제 별도 신청 없이 적용
    12개월 1~5회차
    NH카드 7개월~10개월 1~3회차 잔여회차 면제 별도 신청 없이 적용
    12개월 1~4회차
    18개월 1~5회차
    24개월 1~6회차

     ■ 유의사항

    수협BC카드의 경우 BC카드 부분무이자 혜택에서 적용 제외됩니다.

    개인사업자/법인/체크/선불/기프트/하이브리드/토스카드/은행계열카드는 적용 대상에서 제외됩니다.
    *은행계열카드 : 카드 전/후면에 BC마크가 없는 카드 (예. 제주 등)

    BC카드 및 NH농협 카드의 경우 사전 신청 고객에 한하여 금액에 따른 부분 무이자 우대 회차 적용됩니다.
    자세한 내용은 카드사 홈페이지 혹은 ARS 문의 바랍니다. ( BC : 1899-5772 / NH농협 : 1644-2009 )

    무이자 할부 결제 시 포인트, 마일리지 등 다른 혜택과 중복 적용 되지 않습니다.

    당사 대표 가맹점이 아닌 직계약(자체) 가맹점, 신규 가맹점 등 일부는 적용 대상에서 제외됩니다.

    PG업종에만 해당하는 무이자로 이 외 업종은 적용 불가 합니다. (제약, 등록금, 도시가스 등)

    하나카드는 PG업종 외 TASF 취급수수료, 환금성(상품권), 학원, 면세점, 보험업종 등의 경우 적용 대상에서 제외됩니다.

    본 행사는 카드사 사정에 따라 변경 또는 중단될 수 있습니다.

  • 저자
  • 출판사
  • 발행일
    2024-01-26(교재 판권에 표기된 발행일이며 실제 발행일과 다릅니다)
  • 판형
    183x235/372p
  • ISBN
    9791169211956
    ?
    ISBN이란?
    국제표준도서번호(International Standard Book Number)로서, 국제적으로 표준화된 방법에 따라 전세계에서 생산되는 도서에 부여된 고유번호를 말합니다.
총 상품금액 0
상세소개

강화 학습 마스터의 지름길은 기초를 다지는 것!

딥러닝은 매우 핫한 분야여서 하루가 멀다 하고 새로운 알고리즘과 응용 사례가 발표되고 있습니다.

엄청난 발전 속도에 따라 관련 기술과 서비스도 빠르게 진화해서, 이전에는 유행이었던 것들이 지금은 사라지기도 합니다. 하지만 한편으로는 변하지 않고 전해져 내려오는 것도 있죠. 이 책에서는 배우는 지식이 바로 그 변하지 않는 것입니다.

강화 학습의 기초를 이루는 아이디어와 기술은 예나 지금이나 변함이 없습니다. 최신 알고리즘도 오래전부터 존재해온 아이디어를 토대로 합니다. 강화 학습의 기본 원리, 마르코프 결정 과정, 벨만 방정식, Q 러닝, 신경망 등과 같은 주제는 앞으로도 변함없이 중요하게 여겨질 것입니다. 따라서 현재의 강화 학습, 나아가 심층 강화 학습까지 이해하려면 강화 학습의 기초부터 차근차근 학습하는 것이 오히려 지름길입니다.

파이썬과 수학에 대한 기초만 있다면 읽을 수 있도록 수식 기호 하나하나, 코드 한 줄 한 줄 친절히 설명합니다. 이 책으로 강화 학습의 기초를 제대로 배우고 ‘변하지 않는 것’의 아름다움을 맛보기 바랍니다. 여러분 곁에 포스가 함께 하기를…

대상 독자

강화 학습의 원리를 제대로 배우고자 하는 독자

딥러닝을 더 깊게 이해하고 싶은 개발자

파이썬 지식이 있으며 딥러닝과 강화 학습에 흥미가 있는 데이터 과학 입문자

주요 내용

여러 후보 가운데 가장 좋은 것을 순차적으로 찾는 '밴디트 문제' 풀어보기(1장)

일반적인 강화 학습 문제를 ‘마르코프 결정 과정’으로 정의하기(2장)

마르코프 결정 과정에서 최적의 답을 찾는 데 핵심이 되는 ‘벨만 방정식’ 도출하기(3장)

벨만 방정식을 풀기 위한 방법: 동적 프로그래밍(4장), 몬테카를로법(5장), TD법(6장)

딥러닝에 대해 알아보고 딥러닝을 강화 학습 알고리즘에 적용하기(7장)

DQN을 구현하고 DQN을 확장한 방법 알아보기(8장)

DQN과는 다른 접근법: ‘정책 경사법’ 알고리즘(9장)

A3C/DDPG/TRPO/레인보우 알고리즘과 심층 강화 학습(10장)

목차
CHAPTER 1 밴디트 문제 
_1.1 머신러닝 분류와 강화 학습 
_1.2 밴디트 문제 
_1.3 밴디트 알고리즘 
_1.4 밴디트 알고리즘 구현 
_1.5 비정상 문제 
_1.6 정리 
 
CHAPTER 2 마르코프 결정 과정 
_2.1 마르코프 결정 과정(MDP)이란? 
_2.2 환경과 에이전트를 수식으로 
_2.3 MDP의 목표 
_2.4 MDP 예제 
_2.5 정리 
 
CHAPTER 3 벨만 방정식 
_3.1 벨만 방정식 도출 
_3.2 벨만 방정식의 예 
_3.3 행동 가치 함수(Q 함수)와 벨만 방정식 
_3.4 벨만 최적 방정식 
_3.5 벨만 최적 방정식의 예 
_3.6 정리 
 
CHAPTER 4 동적 프로그래밍 
_4.1 동적 프로그래밍과 정책 평가 
_4.2 더 큰 문제를 향해 
_4.3 정책 반복법 
_4.4 정책 반복법 구현 
_4.5 가치 반복법 
_4.6 정리 
 
CHAPTER 5 몬테카를로법 
_5.1 몬테카를로법 기초 
_5.2 몬테카를로법으로 정책 평가하기 
_5.3 몬테카를로법 구현 
_5.4 몬테카를로법으로 정책 제어하기 
_5.5 오프-정책과 중요도 샘플링 
_5.6 정리 
 
CHAPTER 6 TD법 
_6.1 TD법으로 정책 평가하기 
_6.2 SARSA 
_6.3 오프-정책 SARSA 
_6.4 Q 러닝 
_6.5 분포 모델과 샘플 모델 
_6.6 정리 
 
CHAPTER 7 신경망과 Q 러닝 
_7.1 DeZero 기초 
_7.2 선형 회귀 
_7.3 신경망 
_7.4 Q 러닝과 신경망 
_7.5 정리 
 
CHAPTER 8 DQN 
_8.1 OpenAI Gym 
_8.2 DQN의 핵심 기술 
_8.3 DQN과 아타리 
_8.4 DQN 확장 
_8.5 정리 
 
CHAPTER 9 정책 경사법 
_9.1 가장 간단한 정책 경사법 
_9.2 REINFORCE 
_9.3 베이스라인 
_9.4 행위자-비평자 
_9.5 정책 기반 기법의 장점 
_9.6 정리 
 
CHAPTER 10 한 걸음 더 
_10.1 심층 강화 학습 알고리즘 분류 
_10.2 정책 경사법 계열의 고급 알고리즘 
_10.3 DQN 계열의 고급 알고리즘 
_10.4 사례 연구 
_10.5 심층 강화 학습이 풀어야 할 숙제와 가능성 
_10.6 정리 
 
APPENDIX A 오프-정책 몬테카를로법 
A.1 오프-정책 몬테카를로법 이론 
A.2 오프-정책 몬테카를로법 구현 
 
APPENDIX B n단계 TD법 
 
APPENDIX C Double DQN 이해하기 
C.1 DQN에서의 과대적합이란? 
C.2 과대적합 해결 방법 
 
APPENDIX D 정책 경사법 증명 
D.1 정책 경사법 도출 
D.2 베이스라인 도출

상품정보 제공고시
게시판 성격과 다른내용의 글을 등록하실 경우 임의로 삭제처리 될 수 있습니다. 기대평가 입력하기 기대평가 전체보기
★ 게시판 성격과 다른내용의 글을 등록하실 경우 임의로 삭제처리 될 수 있습니다.
★ 개정판의 경우 구판에 관한 후기가 있으므로 작성일을 확인해 주세요.
이용후기 입력하기 이용후기 전체보기
★ 상품문의외 주문시 요청사항은 처리되지 않으며 삭제됩니다. 1:1문의/고객게시판을 이용해 주세요.★ 상품문의 입력하기
배송안내
반품/교환/AS안내
이 상품 관련상품
  • 품절
    네트워크 교과서
    네트워크 교과서
    20,000 18,000
    10% 5%
  • 토마토패스 박영식 빅데이터분석기사 필기 단기완성
    토마토패스 박영식 빅데이터분석기사 필기 단기완성
    32,000 28,800
    10% 5%
  • Auto CAD 2023 오토캐드
    Auto CAD 2023 오토캐드
    25,000 22,500
    10% 5%
  • 품절
    바로 쓰는 일러스트레이터 CC
    바로 쓰는 일러스트레이터 CC
    23,000 20,700
    10% 5%
  • 바로 쓰는 포토샵 CC
    바로 쓰는 포토샵 CC
    23,000 20,700
    10% 5%
  • (5쇄)혼자 공부하는 파이썬
    (5쇄)혼자 공부하는 파이썬
    22,000 19,800
    10% 5%
  • 데이터분석준전문가(ADsP) 단기완성
    데이터분석준전문가(ADsP) 단기완성
    28,000 25,200
    10% 5%
  • 포토샵으로 뚝딱 만드는 SNS 마케팅 디자인
    포토샵으로 뚝딱 만드는 SNS 마케팅 디자인
    20,000 18,000
    10% 5%
제휴카페 BEST