IT

기울기 소실

rimicode 2022. 6. 1. 15:30
728x90
반응형
SMALL

기울기 소실(Vanishing Gradient or Gradient Vanishing)

활성화 함수의 미분값이 0에 가까워져 학습이 잘 되지 않는 현상

시그모이드 함수를 활성화 함수로 하는 은닉층을 깊게 쌓았을 때 기울기 소실 문제 발생

시그모이드 함수의 도함수

시그모이드 함수를 미분한 함수 그래프

미분값 < 1

때문에 신경망을 학습하는 과정에서 시그모이드 미분값이 곱해지게 되면 갱신되어야 하는 값이 작아져 학습이 제대로 이루어지지 않음


ReLU 함수

ReLU 함수는 음수 구간에서는 미분값이 0 이지만, 양수 구간에서는 미분값이 1

층이 깊어지더라도 1의 값이 계속 곱해지기 때문에 기울기 값이 과도하게 커지거나 작아지는 문제 발생하지 않음

ReLU 함수 등장 이전까지는 은닉층을 깊게 쌓을 수 없었기 때문에 복잡한 문제 푸는데 딥러닝을 사용할 수 없었지만 ReLU 함수가 사용되면서 딥러닝은 더욱 발전 가능해짐

728x90
반응형
LIST

'IT' 카테고리의 다른 글

경사 하강법(Gradient Descent)  (0) 2022.06.03
신경망 학습(Training Neural Network)  (0) 2022.06.02
활성화 함수(Activation Function)의 공통점  (0) 2022.05.31
가중치 행렬  (0) 2022.05.30
인공신경망의 구조  (0) 2022.05.29