Machine Learning in Action ch.14.1 & 14.2 특이 값 분해(SVD)

데이터 간소화하는 알고리즘인 특이 값 분해라는 알고리즘을 공부할 것이다.
하지만 심도 깊게 공부하지는 않을 것이다. 
선형대수가 많이 나와 아직 공부하지 않은 부분이기 때문에 나중에 다시 해야겠다고 마음 먹었다.
특이 값 분해는 추천 엔진과 이미지 압축에 많이 쓰인다고 한다. 

14.1 SVD 응용 프로그램

특이값 분해를 사용하면 노이즈와 불필요한 정보를 제거할 수 있다. 

14.1.1 잠재적인 의미 색인 

특이값 분해를 사용하는 방법을 잠재적 의미 색인 또는 잠재적 의미 분석이라고 한다.
잠재적 의미 색인에서 행렬은 문서와 단어들로 구성되어 문서 검색하는 데에 쓰였는데
문서를 더 효과적으로 검색하기 위해 특이값 분해가 개발되었다. 
하지만 동의어 문제가 존재한다.

14.1.2 추천 시스템

또 다른 특이값 분해 응용 프로그램으로 추천 시스템이 있다. 
추천 시스템은 아이템 또는 사람 간의 유사성을 계산하는 것이다. 


오른쪽에 있는 행렬을 보면 음영처리된 부분이 있다.
애드,피터, 트레이시는 왼쪽 3개의 음식에는 점수를 매기지 않았다. 
왼쪽 3개는 일본 음식이고 오른쪽 2개 음식은 BBQ 음식이다. 
그래서 한 행렬을 2개의 차원으로 나눌 수 있다. 
다음에 원본 데이터에서 이러한 새로운 공간을 어떻게 구할 수 있는지 알아볼 것이다. 

특이값 분해가 데이터 분석 사례로 유명한 넷플릭스 대회 우승한 팀이 사용한 알고리즘이다.

14.2 행렬 인수분해

여기서는 선형대수의 개념이 많이 포함되어 있기 때문에 스킵해야겠다.

















댓글

이 블로그의 인기 게시물

윈도우 설치에서 파티션 설정 오류(NTFS)

[exploit writing] 1_스택 기반 오버플로우 (1) First

하둡 설치 오류 정리