하둡 스파크 공부의 필요성
RNN 공부를 간단히 한 상태에서 kaggle 데이터셋으로 RNN을 구현하는 중이었다. 글자를 행렬로 바꾸는 과정에서 50만개의 글자를 행렬로 만드려니 메모리 오류가 나는 것은 내 노트북에서 당연한 일이었다. 그래서 생각해보니 내가 하둡 스파크를 공부한 이유가 대용량 데이터의 전처리를 보다 빠르게 하기 위함이었다. 집에 있는 그나마 나은 데스크탑으로 스파크를 통해 데이터를 가공하고 가공된 데이터를 가져와 모델링을 하는 것이 효율적일 것 같다. 파이썬 텐서플로우로는 딥러닝 연산을 하고 하둡 스파크에서 데이터의 가공을 하는 메카니즘을 공부해야겠다. 지금은 하둡2 얀 설치에서 막혀있지만 하루 빨리 설치 오류부터 고쳐나가야겠다.