Machine Learning in Action ch.15.1 & 15.2 빅데이터와 맵 리듀스
14장을 나중에 하고 마지막 15장부터 해야겠다.
하둡에 대해 얘기할 것이다.
하둡에 대해 얘기할 것이다.
15.1 맵 리듀스 : 분산 컴퓨팅의 기본 구조
하나의 단일한 컴퓨터가 수행하기 시간이 오래 걸리는 작업을 여러 기기에게 나누어 주어
병렬적으로 작업을 수행한다.
맵 리듀스의 주요 설명은 아래와 같다.
1. 마스터 노드는 맵 리듀스 작업을 제어한다.
2. 맵 리듀스 작업은 맵 작업과 리듀스 작업으로 나누어진다.
3. 맵 작업은 다른 맵 작업과 서로 정보를 교환하지 않으며, 리듀스 작업 역시 이와 마찬가지
4. 맵 단계와 리듀스 단계 사이에는 정렬 단계 또는 결합 단계가 존재.
5. 기기 고장 등으로 작업 수행이 실패할 경우, 처리하지 못한 데이터를 복사하여 다른 기기에 저장한다.
6. 데이터는 매퍼와 리듀서 사이를 키/값 쌍의 형태로 전달된다.
15.2 맵 리듀스에서의 기계학습
하둡의 에코 시스템들 중 Mahout이라는 것이 있다.
맵 리듀스로 수행할 수 있는 알고리즘들이 존재한다.
나이브 베이즈, kNN,SVM 등 여러가지가 있다.
나중에 머하웃 인 액션이라는 책으로 또 공부해야겠다.
댓글
댓글 쓰기