Coursera week 3 Machine Learning: Classification
1. Introduction behind decision trees 이번에는 decision tree에 대해 공부한다. 고등학교 수학에서 배우는 알고리즘과 유사한 내용이다. decision tree model 은 위와 같은 구조를 갖고 있다. 모델을 만들기 위해 4가지 step이 필요하다. 1. 빈 노드로 시작해서 2. 데이터를 나눌 feature 선택 3. 반복문을 통해 split 할 feature 없으면 예측 실행 4. split할 feature 있으면 2로 돌아가 feature 선택 여기서 2가지 문제가 있다. 1. 어떤 feature을 선택해야하는가. 2. 반복문은 언제 끝나야하는가. 2. Learning decision trees 위처럼 하나의 decision 묶음을 Decision stump 라고 한다. 중간에 excellent , fair, poor 이 쓰여있는 노드를 intermediate node라고 한다. intermediate node 에 y hat 을 부여해 classification 을 가능케 해준다. feature selection 은 각 feature의 error rate를 계산해 가장 낮은 error rate 를 가진 feature를 선택한다. 즉, 탐욕 알고리즘의 일환이라고 할 수 있다. error rate = mistakes / data points 로 계산한다. mistakes 는 예를 들어, safe인데 Risky로 분류했다거나 그 반대이거나 하는 경우이다. 이제 첫번째 문제는 해결됐다. 이제 반복문은 언제 끝나야하는가 라는 문제가 남았다. 강의에서 제시하는 해결책은 아래와 같다. 1. 모든 데이터가 y 값에 동의할 때 2. 모든 feature이 split 됐을 때 3. Using the learned decision tre...