Python For Data Analysis ch.02

Pandas 라이브러리에서 모르는 명령어



pd.read_table() or pd.read_csv()

테이블과 csv를 불러올 때 쓰이는 명령어로,
pd.read_table('ml/1m/user.dat',sep='::',header=None,names=unames)를 예로 들 수 있다.
pd.read_table()명령어 안에 
sep는 기본적으로 연이은 값들은 스페이스로 구분되는데 sep를 사용함으로서 다른 구분기호를 사용할 수 있다.
names로 열의 이름을 설정할 수 있다.


pd.merge()

테이블을 합칠 때 쓰이는 명령어로,
data = pd.merge(ratings,users)를 예로 들 수 있다.


.pivot_table()

피벗은 단어의 의미 그대로 회전중심축을 의미하는데, 원본 데이터를 사용자가 정의한 축을 중심으로 다양하게 분석(회전)해볼 수 있다는 의미이다.
data.pivot_table('rating', rows = 'title', cols='gender', aggfunc='mean')를 보면 
data의 데이터 프레임에서 제목이라는 행과 성별이라는 열을 만들어
평균값을 계산해 만든 테이블이다.


data.groupby('title').size()

데이터를 영화 title로 그룹화하고 size함수를 이용해 제목별 평점 정보 건수를 얻어낸다.


.ix[]

indexing으로서 데이터의 부분부분을 볼 수 있게 하는 명령어이다.
예를 들어, data.ix[:7,:2]이면 데이터의 0부터 7행과 0부터 2열까지
데이터를 부분적으로 보여준다.
또한 active_titles = ratings_by_title.index[ratings_by_title >= 250]일 때,
mean_ratings.ix[active_titles]가 쓰이면 ratings_by_title에서 250보다 큰 값을 active_titles에
넣고  그 값을 mean_ratings에 또 넣는다.
active_titles와 mean_ratings의 차이점은 전자는 리스트 형태이고 후자는 테이블 형태이다.


.sort()

기본적인 sort()는 오름차순이다. sort(reverse=TRUE)를 사용하면  내림차순이 가능하다
sort() 함수를 사용하면 리스트로 출력이 된다. 데이터 프레임 또한 리스트로 출력된다.


기존 열을 이용해 새로운 열을 추가하고 싶은 경우

mean_ratings['diff'] = mean_ratings['M'] - mean_ratings['F']와 같은 경우,
M과 F열은 존재하지만 diff열은 존재하지 않는다.
이 경우, 기존 열을 이용해 새로운 열을 추가할 수 있다.


.sort_index()

데이터 프레임에서 쓰이는데
.sort_index(by=??)은 ??는 열 이름을 써서 그 열만 보여주고
.sort_index(ascending=True)는 오름차순으로 정리한 것이고


#sorted_by_diff = mean_ratings.sort_index(by='diff')
 sorted_by_diff[::-1][:15] 는 diff 열로 정렬하고
 열을 뒤집어 정렬하고 0열부터 15열까지 보여준다.

댓글

이 블로그의 인기 게시물

윈도우 설치에서 파티션 설정 오류(NTFS)

[exploit writing] 1_스택 기반 오버플로우 (1) First

하둡 설치 오류 정리