Machine Learning in Action ch.15.1 & 15.2 빅데이터와 맵 리듀스

14장을 나중에 하고 마지막 15장부터 해야겠다.
하둡에 대해 얘기할 것이다.


15.1 맵 리듀스 : 분산 컴퓨팅의 기본 구조

하나의 단일한 컴퓨터가 수행하기 시간이 오래 걸리는 작업을 여러 기기에게 나누어 주어
병렬적으로 작업을 수행한다.

맵 리듀스의 주요 설명은 아래와 같다.

1. 마스터 노드는 맵 리듀스 작업을 제어한다.
2. 맵 리듀스 작업은 맵 작업과 리듀스 작업으로 나누어진다.
3. 맵 작업은 다른 맵 작업과 서로 정보를 교환하지 않으며, 리듀스 작업 역시 이와 마찬가지
4. 맵 단계와 리듀스 단계 사이에는 정렬 단계 또는 결합 단계가 존재.
5. 기기 고장 등으로 작업 수행이 실패할 경우, 처리하지 못한 데이터를 복사하여 다른 기기에 저장한다.
6. 데이터는 매퍼와 리듀서 사이를 키/값 쌍의 형태로 전달된다.

15.2 맵 리듀스에서의 기계학습

하둡의 에코 시스템들 중 Mahout이라는 것이 있다. 
맵 리듀스로 수행할 수 있는 알고리즘들이 존재한다. 
나이브 베이즈, kNN,SVM 등 여러가지가 있다. 
나중에 머하웃 인 액션이라는 책으로 또 공부해야겠다. 

댓글

이 블로그의 인기 게시물

윈도우 설치에서 파티션 설정 오류(NTFS)

[exploit writing] 1_스택 기반 오버플로우 (1) First

하둡 설치 오류 정리