Machine Learning in Action ch.7.7 AdaBoost

7.7 분류 불균형

분류에 대한 여섯 개의 알고리즘에서 우리는 분류하는 대상에 대한 비용이 동일하다고 가정했다.

하지만 대부분의 경우 비용이 모두 다르다. 이번에는 비용이 서로 다른 경우 분류기의 성능을 시각화하는 몇 가지 그래픽 기술에 대해 살펴봐야겠다.

7.7.1 또 다른 성능 측정 방법 : 정확도, 재현율 , ROC

우리는 이 때까지 오류율을 통해 성능 측정을 했다. 하지만 어떤 사례가 잘못 분류된 것인지 나타내지는 못한다. 이때 기계학습에서는 분류 오류를 좀 더 자세하게 나타내는 혼동 행렬이라는 도구를 사용한다. 

                                        예측
                         +1                         -1      
현실 +1             긍정적인 참 (TP)         부정적인 거짓 (FN)
       -1             긍정적인 거짓 (FP)       부정적인 참 (TN)

첫번 째 측정 방법 정확도 = TP/(TP + FP)
정확도는 분류기가 긍정적으로 예측한 그룹 중에서도 실제로도 긍정적인 부분을 말한다.

두번 째 측정 방법 재현율 = TP/(TP + FN) 
재현율은 긍정적인 예제들 중 분류기가 옳다고 예측한 부분을 측정한다. 

재현율과 정확도를 높이는 것은 쉽지만 모두 높이는 것은 쉽지 않다.

또다른 도구로 ROC 곡선이 있다. 



위 그림은 ROC 곡선을 그려놓은 것으로 x축은 긍정적인 거짓의 수를 나타내며, y축은 긍정적인 참의 수를 나타낸다. 

왼쪽 가장자리는 모두 부정적인 분류 항목을 나타내며, 오른쪽 가장자리는 모두 긍정적인 부류 항목으로 분류된 것을 의미한다. 

ROC 곡선은 분류기를 비교하고 이익에 대한 비용을 고려한 의사결정을 하는 데 사용될 수 있다. 

이상적으로 가장 좋은 분류기는 가능한 한 왼쪽 상단에 위치하는 것이다. 이것은 낮은 비ㅇ율의 긍정적인 거짓에 비해 높은 비율의 긍정적인 참을 가지게 된다는 것을 의미한다.


7.7.2 Adaboost 요약

다양한 분류기를 결합하는 것은 과적합과 같은 단일 분류기의 단점을 공략하는 방법이다.
분류기들이 서로 큰 차이를 보일 떄, 다양한 분류기들을 결합하는 것은 효과적이다.

우리는 배깅과 브스팅이라는 두 가지 유형의 앙상블 메소드에 대해서 다루었다. 배깅에서는 대체할 데이터 집합을 위해 원본 데이터 집합과 같은 크기의 데이터 집합을 임의로 추출한 예제들로 구축한다.

부스팅은 하나의 데이터 집합에 순차적으로 서로 다른 여러 가지 분규기를 적용함으로써 단계를 추가하는 배깅의 발상을 적용한다.

배깅과 부스팅에 대한 자세한 내용은 http://jangjy.tistory.com/166를 참고했다.

이미지 출처
http://gim.unmc.edu/dxtests/t4roc.jpg

댓글

이 블로그의 인기 게시물

윈도우 설치에서 파티션 설정 오류(NTFS)

[exploit writing] 1_스택 기반 오버플로우 (1) First

하둡 설치 오류 정리