옵티마이저는 경사를 내려가는 방법을 결정 일반적인 경사 하강법(GD)에서는 모든 입력 데이터에 대한 손실 함수의 기울기를 계산한 후 가중치 업데이트 즉, Iteration 마다 모든 데이터를 다 사용 입력 데이터가 적다면 이 방법으로도 빠르게 가중치 갱신 가능 실제로는 큰 데이터를 다루기 때문에 모든 데이터에 대해 손실을 계산하는 과정이 굉장히 오레 걸림 확률적 경사 하강법(Stochastic Gradient Descent, SGD) 전체 데이터에서 하나의 데이터를 뽑아서 신경망에 입력한 후 손실을 계산 그 손실 정보를 역전파하여 신경망의 가중치를 업데이트 Iteration 마다 1개의 데이터만 사용 가중치를 빠르게 업데이트 할 수 있다는 장점 1개의 데이터만 보기 때문에 학습 과정에서 불안정한 경사 하..