일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- GPIO
- 신경망 첫걸음
- RDT
- Linux
- 모두를 위한 딥러닝
- 펌웨어
- 리눅스
- Network layer
- Interrupt
- 신경망
- 밑바닥부터 시작하는 딥러닝
- Class Activation Map
- Transport layer
- 딥러닝
- TensorFlow
- 디바이스 드라이버
- 3분 딥러닝
- 텐서플로우
- 스위치
- function call
- Router
- 운영체제
- 모두를 위한 딥러닝]
- demultiplexing
- LED
- LED 제어
- file descriptors
- 인터럽트
- Generalized forward
- Switch
Archives
- Today
- Total
건조젤리의 저장소
2-1. Playing OpenAI GYM Games 본문
김성훈 교수님의 강의내용을 정리한 내용입니다.
출처 : http://hunkim.github.io/ml/
강화학습을 사용하여 Frozen Lake 게임을 학습해 보자.
S: 시작 지점 / F: 안전한 구역 / H: 위험한 구역(구덩이) / G: 목표 지점
Agent는 S에서 시작하여 G로 가는 길을 찾아야 한다.
Agent는 상하좌우로 움직이게 되고 환경에서 현재 상태와 보상을 받게된다.
만약 오른쪽으로 한칸 움직였을 경우 상태는 1, 보상은 0 이 된다.
이 방법을 일반화 하게되면 모든 게임에 적용이 가능하다.
Agent가 행동을 취한다. -> 현재 상태와 보상을 받는다.
이를 구현하기 위해 OpenAI에서 제공하는 Gym이라는 라이브러리를 쓴다.
gym.make 로 환경을 만든다.
.reset 으로 환경을 초기화 시킨다.
.render 로 화면에 출력한다.
환경에 따라 적절한 액션을 취하고 .step 함수를 호출하여 결과를 얻어낸다.
* done: 게임이 끝났는지, info: 추가정보
이를 Frozen Lake에 적용하면 위와 같다.
실제 Agent입장에서는 Enviroment가 보이지 않는다.
어떻게 해결할까?
'공부 기록 > 모두를 위한 딥러닝 (RL)' 카테고리의 다른 글
4-1. Q-learning (0) | 2019.11.19 |
---|---|
3-2. Dummy Q-learning 구현 (0) | 2019.11.18 |
3-1. Dummy Q-learning (0) | 2019.11.18 |
2-2. Playing OpenAI GYM Games (0) | 2019.11.18 |
1. Reinforcement learning (0) | 2019.11.18 |
Comments