Machine Learning in Action ch.13.1 & 13.2 Dimentionality Redution

이미지를 분석할 때, 보통 100만픽셀하는 이미지를 분석해야만한다.
100만차원 이미지를 분석하는 것은 너무 힘들다.
그래서 차원 축소를 통해 100만차원을 3차원으로 줄여 분석한다.

데이터에는 속성들의 관계가 명확하게 표현되지 않을 수도 있기 때문에,
서로 다른 기계학습 알고리즘을 적용하기 위해서는 속성들의 관계를 우선적으로 해야한다.

차원 축소는 데이터 전처리에 쓰인다. 데이터에 대한 전처리가 이루어져야만 서로 다른 기계학습을 적용할 수가 있다.


13.1 차원 축소 기술

데이터를 단순화하려는 또 다른 이유들이 존재한다.

1. 사용하기 쉬운 데이터 집합 구축
2. 많은 알고리즘의 계산 비용 축소
3. 노이즈 제거
4. 이해하기 쉬운 결과 도출

차원 축소 기술은 데이터 분류 항목 표시 유무와 관계 없이 사용할 수 있다.
차원 축소 알고리즘 3가지를 알아볼 것이다.

1. 주요 구성요소 분석 (PCA)
2. 요소 분석
3. 독립적인 구성요소 분석 (ICA)

위 세가지 알고리즘 중 책에서는 PCA를 배운다.


13.2 PCA

우선 주요 구성요소를 정해야한다.
변화량이 가장 큰 데이터의 방향에서 첫 번째 주요 구성요소를 가지게 된다.
그리고 두 번째 구성요소는 데이터의 변화량이 두 번째로 크면서 첫 번째 구성요소와
직교하는 방향을 가진 축이 된다.



PCA로 데이터 집합에 대해 차원 축소를 함으로써 우리는 두 가지 이득을 볼 수 있다.

1. 의사 결정 트리처럼 간단한 분류기
2. svm의 좋은 의미

아래의 그림을 보면 확연히 느낄 수 있다.
축은 단지 하나 뿐이다. 다른 축은 노이즈가 있을 뿐 아니라 분류하는데 쓰이지 않기 때문이다.






















댓글

이 블로그의 인기 게시물

윈도우 설치에서 파티션 설정 오류(NTFS)

[exploit writing] 1_스택 기반 오버플로우 (1) First

하둡 설치 오류 정리