망둥어집
배치 사이즈에 따른 gradient descent
stochastic gradient descent (mini batch size = 1) : 장점 local optimal에 빠질 확률이 적다. 1 step에 걸리는 시간이 짧아 수렴 속도가 빠르다. 단점 vector 방향이 부적확 shooting으로 인해 global optimal을 찾지 못할 가능성 존재. 데이터를 한개씩 처리하여 gpu 자원 사용성 저하. batch gradient descent (mini batch size == batch size): 장점 : update 횟수가 적다. optimal로의 수렴이 안정적이다. 단점 한 스텝에 모든 학습 데이터 셋을 사용하여 학습이 오래 걸린다. 전체 학습 데이터에 대한 error를 모두 축적해야하여 메모리 사용량이 높다. local optimal에서..
Deep learning
2020. 2. 3. 21:16