건조젤리의 저장소

7-1. Learning rate, data preprocessing, overfitting 본문

공부 기록/모두를 위한 딥러닝 (Basic)

7-1. Learning rate, data preprocessing, overfitting

건조젤리 2019. 11. 7. 16:17

김성훈 교수님의 강의내용을 정리한 내용입니다.

출처 : http://hunkim.github.io/ml/

 

모두를 위한 머신러닝/딥러닝 강의

 

hunkim.github.io


지난 실습 시간에는 0.001 이라는 학습률을 적용해 경사 하강법을 이용하였다.

이 학습률은 어떻게 설정해야 할까?

학습률을 크게 설정하면 overshooting이 될 가능성이 있다.

학습률을 매우 작게 설정한다면 최저점까지 도달하는 시간이 커지고 지역 최저점에 같혀버릴 수 있다.

 

결론

  • cost function을 잘 관찰하자.
  • 발산이 되면 작게, 너무 오래 걸리면 크게 설정해보자.

경사 하강법은 최저점을 찾아가는 방법이다.

만약 데이터가 극단적인 값을 가진경우 cost function이 왜곡된 모습을 보인다.

이런 경우는 경사하강법을 사용해 최저점을 찾기 어렵다.

문제점 해결을 위해 위 2가지 방법을 이용하기도 한다.

데이터 표준화

우리가 사용할 방법은 데이터 표준화 방법으로, 평균을 기준으로 얼마나 떨어져 있는지를 나타내는 값이다.


Overfitting

  • 모델이 학습데이터에 치우쳐짐
  • 실제 데이터에 적용하면 성능이 떨어짐

왼쪽에 비해 오른쪽 모델은 학습 데이터에 치우쳐져 있다.

 

Overfitting을 해결하는 방법

  • 많은 학습 데이터
  • 특징의 개수를 줄이기
  • Regularization(일반화)

어느 Weight값이 매우 커지게 되면 Overfitting이 일어나게 되므로 Cost Function에 패널티를 추가하여 억제시킨다.

 

 

Comments