Machine Learning in Action ch.11.1 & 11.2 어프라이어리 알고리즘
마켓에서 남성이 기저귀를 산 뒤 맥주를 산다는 연구 결과는 유명하다.
기저귀와 맥주 간의 연관 분석을 해서 얻어낸 결과이다.
흥미로운 관계들을 수량화할 수 있는 방법은 2가지가 있다.
빈발 아이템 집합으로 모든 데이터 집합에서 공통적으로 나타나는 아이템들을 관찰한다.
연관 규칙으로 데이터 간의 흥미로운 관계들을 측정한다.
하지만 이것들을 하나 하나 찾기엔 시간이 너무 오래걸린다.
그래서 나온 알고리즘이 어프라이어리 알고리즘이다.
어프라이어리 알고리즘은 집합의 수를 줄여 시간을 단축한다.
나중에 더 자세히 알아볼 것이다.
11.1 연관 분석
빈발 아이템 집합을 확인할 때, 빈발에 대한 정의는 지지도와 신뢰도를 통해 정의될 수 있다.
지지도란, 이 아이템 집합에서 확인하고자하는 아이템의 비율로 정의한다.
신뢰도란, 연관 규칙을 정의한다. 예를 들어, 기저귀 -> 맥주라는 순서에 대한 비율로 정의한다.
11.2 어프라이어리 이론
(2,3) 집합이 빈발하지 않다면 (2,3)을 포함하는 아래 집합들을 계산에서 제외시켜 계산 속도를 높이는 알고리즘이 어프라이어리 알고리즘이다.
댓글
댓글 쓰기