728x90
반응형
SMALL

도함수 2

편미분 & Chain Rule

편미분(Partial Derivatives) 손실 함수를 통해 해당 가중치에서의 손실을 구했다면 이를 바탕으로 손실을 줄이는 방향으로 가중치 업데이트 경사하강법을 사용하기 때문에 각 가중치에 대한 기울기 값을 구해주어야 함 이 과정에서 편미분 사용 편미분이란 파라미터가 2개 이상인 함수에서 특정 파라미터에 대한 기울기를 구하는 방법 편미분 과정에서 우리가 집중하고자 하는 특정 파라미터 이외의 모든 파라미터는 상수로 취급 계산 방법 함수 f(x, y)를 x에 대해서 편미분한 도함수는 아래와 같은 과정을 거쳐 구할 수 있음 y는 상수처럼 취급 두 개의 파라미터 x, y로 이루어진 식에서 하나의 파라미터에 대해 미분한 함수를 구하고자 할 때는 편미분을 사용 Chain Rule(연쇄 법칙) 합성 함수를 미분을 ..

IT 2022.06.06

기울기 소실

기울기 소실(Vanishing Gradient or Gradient Vanishing) 활성화 함수의 미분값이 0에 가까워져 학습이 잘 되지 않는 현상 시그모이드 함수를 활성화 함수로 하는 은닉층을 깊게 쌓았을 때 기울기 소실 문제 발생 시그모이드 함수의 도함수 미분값 < 1 때문에 신경망을 학습하는 과정에서 시그모이드 미분값이 곱해지게 되면 갱신되어야 하는 값이 작아져 학습이 제대로 이루어지지 않음 ReLU 함수 ReLU 함수는 음수 구간에서는 미분값이 0 이지만, 양수 구간에서는 미분값이 1 층이 깊어지더라도 1의 값이 계속 곱해지기 때문에 기울기 값이 과도하게 커지거나 작아지는 문제 발생하지 않음 ReLU 함수 등장 이전까지는 은닉층을 깊게 쌓을 수 없었기 때문에 복잡한 문제 푸는데 딥러닝을 사용할..

IT 2022.06.01
728x90
반응형
LIST