일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- Transport layer
- Network layer
- Switch
- GPIO
- demultiplexing
- 스위치
- 3분 딥러닝
- 디바이스 드라이버
- 텐서플로우
- Router
- 딥러닝
- 인터럽트
- LED
- 펌웨어
- function call
- 밑바닥부터 시작하는 딥러닝
- TensorFlow
- Interrupt
- Linux
- file descriptors
- 리눅스
- Generalized forward
- 신경망
- 모두를 위한 딥러닝
- 신경망 첫걸음
- RDT
- LED 제어
- Class Activation Map
- 운영체제
- 모두를 위한 딥러닝]
Archives
- Today
- Total
건조젤리의 저장소
7-1. Learning rate, data preprocessing, overfitting 본문
공부 기록/모두를 위한 딥러닝 (Basic)
7-1. Learning rate, data preprocessing, overfitting
건조젤리 2019. 11. 7. 16:17김성훈 교수님의 강의내용을 정리한 내용입니다.
출처 : http://hunkim.github.io/ml/
지난 실습 시간에는 0.001 이라는 학습률을 적용해 경사 하강법을 이용하였다.
이 학습률은 어떻게 설정해야 할까?
학습률을 크게 설정하면 overshooting이 될 가능성이 있다.
학습률을 매우 작게 설정한다면 최저점까지 도달하는 시간이 커지고 지역 최저점에 같혀버릴 수 있다.
결론
- cost function을 잘 관찰하자.
- 발산이 되면 작게, 너무 오래 걸리면 크게 설정해보자.
경사 하강법은 최저점을 찾아가는 방법이다.
만약 데이터가 극단적인 값을 가진경우 cost function이 왜곡된 모습을 보인다.
이런 경우는 경사하강법을 사용해 최저점을 찾기 어렵다.
문제점 해결을 위해 위 2가지 방법을 이용하기도 한다.
우리가 사용할 방법은 데이터 표준화 방법으로, 평균을 기준으로 얼마나 떨어져 있는지를 나타내는 값이다.
Overfitting
- 모델이 학습데이터에 치우쳐짐
- 실제 데이터에 적용하면 성능이 떨어짐
왼쪽에 비해 오른쪽 모델은 학습 데이터에 치우쳐져 있다.
Overfitting을 해결하는 방법
- 많은 학습 데이터
- 특징의 개수를 줄이기
- Regularization(일반화)
어느 Weight값이 매우 커지게 되면 Overfitting이 일어나게 되므로 Cost Function에 패널티를 추가하여 억제시킨다.
'공부 기록 > 모두를 위한 딥러닝 (Basic)' 카테고리의 다른 글
7-3. Tensorflow를 이용한 Learning rate, Evaluation실습 (0) | 2019.11.07 |
---|---|
7-2. Learning and test data sets (0) | 2019.11.07 |
6-2. Tensorflow를 이용한 Softmax Classifier구현 (0) | 2019.11.07 |
6-1. Softmax classification: Multinomial classification (0) | 2019.11.07 |
5-2. Tensorflow를 이용한 Logistic (regression) classifier구현 (0) | 2019.11.07 |
Comments