Coursera - Machine Learning week.4
Non-Linear Hypotheses 다음과 같은 트레이닝 셋이 있을때, 두 집단을 classification 하는 hypothesis 를 찾는다고 하자. ( http://www.holehouse.org ) 많은 변수 x1^2, x1x2, x2^2 등을 넣는다고 하자 . 트레이닝 셋에 적합한 가설을 찾을수는 있겠지만 단점이 있다. 1. 과적합 이 발생할 수 있다. 2. 변수가 n 이라 할때, 모든 quadratic feature 를 도입하면 feature 수가 O(n^2) ( n^2/2 )만큼 늘어난다. (아래 그림 참조) 계산 비용이 엄청나게 비싸진다. ( http://blog.csdn.net/feliciafay ) 그리고 변수를 줄이기 위해 x1^2, x2^2, x3^2 ... 등 2차 변수 만을 도입하고 나머지 parameter 를 버리면, hypothesis 가 underfit 할 수 있다. 만약 변수를 cubic 까지 도입하면 feature 수가 O(n^3) 으로 늘어나 계산시간은 어마어마하게 걸린다. 따라서 차수를 늘려 문제를 해결하려는 방법은 n 이 클때 좋은 방법이 아니다. 게다가 일반적으로 대부분의 문제들은 n 이 큰편이다. 자동차 이미지 인식 문제를 고려해 보자. 이미지는 픽셀이므로, 50 * 50 픽셀로 구성된 경우 n = 2500 이다. ( http://b...