728x90
반응형
SMALL
배치 사이즈는 주로 2의 제곱수
배치 사이즈가 작을 때
배치 사이즈를 너무 작게 설정하면 경사 하강법을 통한 가중치 갱신이 불안정하여 최적점에 이르기까지 많은 Iteration을 필요로 한다는 단점
하지만 노이즈가 상대적으로 높기 때문에 지역 최적점(Local Minima)에 빠져나올 확률이 높아진다는 장점
배치 사이즈가 클 때
경사 하강법 과정에서 가중치 갱신이 안정적으로 일어나기 때문에 학습 속도가 빨라짐
배치 사이즈가 1인 확률적 경사 하강법보다 미니 배치 사용한 미니 배치 경사 하강법이 더 빠르게 수렴
큰 배치 사이즈가 좋다고 배치 사이즈를 너무 크게 설정하면 메모리를 초과해버리는 Out-of-Memory 문제 발생
최적의 배치 사이즈
배치 사이즈가 클 때 학습이 안정적으로 잘 되는 것은 사실이지만 항상 큰 배치 사이즈가 최고의 결과를 낳는 것은 아님
가장 좋은 방법은 하이퍼파라미터 조정(Hyperparameter Tuning)
여러 배치 사이즈에 대해 신경망을 학습한 후에 가장 좋은 결과를 보이는 배치 사이즈를 결정
728x90
반응형
LIST
'IT' 카테고리의 다른 글
학습률(Learning rate) & 학습률 감소/계획법(Learning rate Decay / Scheduling) (0) | 2022.06.07 |
---|---|
편미분 & Chain Rule (0) | 2022.06.06 |
옵티마이저(Optimizer) (0) | 2022.06.04 |
경사 하강법(Gradient Descent) (0) | 2022.06.03 |
신경망 학습(Training Neural Network) (0) | 2022.06.02 |