cs109 #Lab 1. An Introduction to Pandas and Python

공부할 것을 또 찾아버렸다.
머신러닝 인 액션을 아직 다 못 끝냈지만 곧 끝나기 때문에 이것도 같이 해야겠다.
데이터 마이닝하는 데에 도움되는 강의 내용들이 많아 정리하면서 공부해야겠다.

Jupyter 로 강의를 한다.
원하는 정보가 바로바로 뜨기 때문에 파이참보다 좋은 것 같다.

우선 Jupyter에 대한 사용법부터 설명한다.

1. Jupyter 사용법

1.1 명령어 사용하기

!를 이용하여 명령어 사용이 가능하다.
예를들면,
!C:/Users/llewyn/Anaconda3/Scripts/pip install seaborn


1.2 Markdown 사용

Look up http:/www.google.com Lets eat a burrito. $\alpha = \frac{\beta}{\gamma}$

Longer:

$$\alpha = \frac{\beta}{\gamma}$$

1. an item
2. another item
3. i like items

hello, i am **bold** , or i am *important*, and i am a `tick`

> and mile to go before i sleep

```python

def fune():
    print "hello"
```
위 마크다운을 실행해보면 
아래와 같은 화면이 된다.


2. Pandas 


여기서는 내가 아는 것들은 다 제외시키고 정리해야겠다.

2.1 Basics

df.dtypes 는 data cleanup 하기 전에 데이터 타입 알아보고 싶을 때 사용.

2.2 Querying

df.rating < 3 의 결과는 불리안으로 처리된다.

2.3 Filtering

df.query("rating > 4.5") 은 rating이 4.5를 초과하는 데이터 프레임을 반환
df.query("rating > 4.5")df [df.rating > 4.5]와 결과가 같다.
즉, 2.2에 나온 df.rating < 3의 결과인 불리안을 df [] 안에 넣어 True 값만 반환해 데이터 프레임을 만든다고 생각하면 편할 것이다.

2.5 Cleaning

df['year']=df.year.astype(int)

위 명령어들을 했는데 오류가 났다. 
그 이유는 null 값들이 존재하기 때문이다.

df = df[df.year.notnull()]
df.shape

그래서 null 값이 아닌 것만 True로 반환하는 함수 notnull을 통해 클리닝한다.
결과는 (6000,10)이었던 데이터 프레임이 (5993,10)으로 바뀌었다.

즉, 클리닝은 주로 Na값이나 null값을 제거하는 데에 쓰이는 것 같다.





댓글

이 블로그의 인기 게시물

윈도우 설치에서 파티션 설정 오류(NTFS)

[exploit writing] 1_스택 기반 오버플로우 (1) First

하둡 설치 오류 정리