9월, 2016의 게시물 표시

하둡 스파크 공부의 필요성

이미지
RNN 공부를 간단히 한 상태에서 kaggle 데이터셋으로 RNN을 구현하는 중이었다. 글자를 행렬로 바꾸는 과정에서 50만개의 글자를 행렬로 만드려니 메모리 오류가 나는 것은 내 노트북에서 당연한 일이었다. 그래서 생각해보니 내가 하둡 스파크를 공부한 이유가 대용량 데이터의 전처리를 보다 빠르게 하기 위함이었다. 집에 있는 그나마 나은 데스크탑으로 스파크를 통해 데이터를 가공하고 가공된 데이터를 가져와 모델링을 하는 것이 효율적일 것 같다. 파이썬 텐서플로우로는 딥러닝 연산을 하고 하둡 스파크에서 데이터의 가공을 하는 메카니즘을 공부해야겠다. 지금은 하둡2 얀 설치에서 막혀있지만 하루 빨리 설치 오류부터 고쳐나가야겠다.

딥러닝에 쓰이는 어려운 라이브러리 정리

Python 라이브러리 정리 이 게시글의 계기는 TensorFlow에 대한 github의 코드를 이해하지 못해서 입니다. 전체 코드를 보고 싶으시다면 char-rnn-tensorflow 에 있습니다. 물론 아래 코드는 해당 라이브러리 함수의 빙산의 일각에 불과합니다. 굉장히 주관적인 어려움에 의한 게시글입니다. 다행히 여기 쓰일 함수를 구글링해서 들어오신 분들이 많을거라 예상되기 때문에 저가 이미 알고 있는 함수들에 대한 언급은 하지 않겠습니다. 딥러닝에서 아래 라이브러리들이 다 꼭 쓰여야만 하는 것도 아닙니다. 단순히 나중을 위해 공부하는 것입니다. import tensorflow as tf import argparse import time import os from six.moves import cPickle from utils import TextLoader from model import Model def main(): parser = argparse.ArgumentParser() parser.add_argument('--data_dir', type=str, default='data/tinyshakespeare', help='data directory containing input.txt') '''(중략)''' parser.add_argument('--init_from', type=str, default=None, help="""continue training from saved model at this path. Path must contain files saved by previous training process: 'conf