Coursera - Machine Learning week.5
지난시간엔 왜 neural network 를 사용하는지 알아보았다. 데이터의 차수가 매우 클 때 logistic regression 으로는 성능이 떨어지거나 overfitting 의 문제가 발생할 수 있다는 사실을 알게 되었고, 마지막엔 multi class 문제를 어떻게 해결할지도 잠깐 논의 해봤다. 이번에는 back propagation , gradient checking 에 대해서 배워보자. Cost Function 시작하기 전에 몇 가지 표기법을 정의하자. L 을 레이어의 수, s_l 을 해당 레이어의 유닛 수라 하자. 그러면 bianry classification 에서 S_L = 1 이다. 아웃풋 레이어의 유닛 수를 더 간단히 K 라 하자. 이제 neural network 에 대한 cost function 을 볼건데 먼저 binary classification 의 regularized cost function 식을 다시 보자. 지난 시간에 언급했듯이 신경망에서 각 단계는 logistic regression 과 같이 때문에 L 의 신경망은 L-1 의 logistic regression 의 식으로 변환할 수 있다. 뒷 부분 regularization term 은 이해하기 어렵지 않다. 신경망에선 weight ( theta ) 의 행렬이 이전 레이어와 다음 레이어의 유닛 수로 구성되므로 (theta_ji^l)^2 으로 모든 theta^2 를 구할 수 있다. 여기서 i = 1 ...