cs109 #Lab 1. An Introduction to Pandas and Python
공부할 것을 또 찾아버렸다.
머신러닝 인 액션을 아직 다 못 끝냈지만 곧 끝나기 때문에 이것도 같이 해야겠다.
데이터 마이닝하는 데에 도움되는 강의 내용들이 많아 정리하면서 공부해야겠다.
Jupyter 로 강의를 한다.
원하는 정보가 바로바로 뜨기 때문에 파이참보다 좋은 것 같다.
우선 Jupyter에 대한 사용법부터 설명한다.
예를들면,
!C:/Users/llewyn/Anaconda3/Scripts/pip install seaborn
머신러닝 인 액션을 아직 다 못 끝냈지만 곧 끝나기 때문에 이것도 같이 해야겠다.
데이터 마이닝하는 데에 도움되는 강의 내용들이 많아 정리하면서 공부해야겠다.
Jupyter 로 강의를 한다.
원하는 정보가 바로바로 뜨기 때문에 파이참보다 좋은 것 같다.
우선 Jupyter에 대한 사용법부터 설명한다.
1. Jupyter 사용법
1.1 명령어 사용하기
!를 이용하여 명령어 사용이 가능하다.예를들면,
!C:/Users/llewyn/Anaconda3/Scripts/pip install seaborn
1.2 Markdown 사용
Look up http:/www.google.com Lets eat a burrito. $\alpha = \frac{\beta}{\gamma}$
Longer:
$$\alpha = \frac{\beta}{\gamma}$$
1. an item
2. another item
3. i like items
hello, i am **bold** , or i am *important*, and i am a `tick`
> and mile to go before i sleep
```python
def fune():
print "hello"
```
위 마크다운을 실행해보면
아래와 같은 화면이 된다.
2. Pandas
여기서는 내가 아는 것들은 다 제외시키고 정리해야겠다.
2.1 Basics
df.dtypes 는 data cleanup 하기 전에 데이터 타입 알아보고 싶을 때 사용.
2.2 Querying
df.rating < 3 의 결과는 불리안으로 처리된다.
2.3 Filtering
df.query("rating > 4.5") 은 rating이 4.5를 초과하는 데이터 프레임을 반환
df.query("rating > 4.5")는 df [df.rating > 4.5]와 결과가 같다.
즉, 2.2에 나온 df.rating < 3의 결과인 불리안을 df [] 안에 넣어 True 값만 반환해 데이터 프레임을 만든다고 생각하면 편할 것이다.
2.5 Cleaning
df['year']=df.year.astype(int)
위 명령어들을 했는데 오류가 났다.
그 이유는 null 값들이 존재하기 때문이다.
df = df[df.year.notnull()]
df.shape
그래서 null 값이 아닌 것만 True로 반환하는 함수 notnull을 통해 클리닝한다.
결과는 (6000,10)이었던 데이터 프레임이 (5993,10)으로 바뀌었다.
즉, 클리닝은 주로 Na값이나 null값을 제거하는 데에 쓰이는 것 같다.
댓글
댓글 쓰기