kNN 알고리즘 & Naive Bayes 알고리즘 요약

kNN

분류 알고리즘이며 지도 학습 알고리즘 중 하나이다.

다른 알고리즘들보다 훨씬 간단한 알고리즘이다.

장점으로는 높은 정확도와 아웃사이어에 둔감하며 데이터에 대한 가정이 없음

단점은 계산 비용이 높고 많은 메모리 요구

우선 좌표평면에 트레이닝 세트를 설정해 놓고 분류하고자하는 좌표를 놓아보면

가장 가까운 k개의 투표자들의 과반수의 라벨에 따라 분류하고자 하는 점의 라벨을 분류한다.

가장 쉬운 알고리즘으로서 별로 사용되지 않을 것 같다.

SVM이나 나이브 베이스가 더 많이 쓰일 것 같다.

이 알고리즘은 필기체 인식과 영화 장르 분류 등으로 사용할 수 있다.


나이브 베이즈 

데이터 분류에서 의사 결정 트리는 매우 성공적이지 않으며

kNN은 많은 계산이 요구되기 때문에 가장 좋은 선택은 곧 확률적인 비교일 것이다.

나이브 베이즈 알고리즘은 베이즈 정리를 기초로 조건부 확률을 이용한다.

주로 텍스트 분류이나 스팸 메일 분류기 등으로 사용된다.

분류하고자 하는 문서 안의 단어들을 쪼개 자신의 딕셔너리에 있는지 확인하고

그 단어들이 자신의 딕셔너리 안에서 어떤 라벨에 속하는가에 따라 조건부 확률을 통해 문서를 분류한다.

댓글

이 블로그의 인기 게시물

윈도우 설치에서 파티션 설정 오류(NTFS)

[exploit writing] 1_스택 기반 오버플로우 (1) First

하둡 설치 오류 정리