5월, 2016의 게시물 표시

#2 웹 크롤링을 이용한 텔레그램 봇 만들기

중간고사 끝나고 2주동안 이거 만드느라 아무것도 못했다. 자비스 같은 개인 비서를 만들고 싶었다. 그래서 실생활에서 내가 하고 있는 것들을 버튼 하나로 출력 값이 나오는 봇을 만들었다. 날씨 검색과 현재 핫 뉴스 검색이다. 소스 코드는 https://github.com/kbj2060/Data_Analysis 에 올려놨다. 소스 코드는 2가지로 이루어져있다. 첫번째는 기상청에서 zone_code 를 긁어서 데이터 베이스에 넣는 코드 두번째는 텔레그램 api를 이용해 봇을 만드는 코드이다. class 는 weather와 news와 마지막으로 telegram api를 이용해 데이터를 출력하는 bot이 있다. 1. 날씨 검색 흠..날씨 검색은 기상청 RSS를 이용해 정보를 긁어왔다. 참 복잡하다. 전국에 있는 zone_code를 긁어와야했다. 3000개의 zone_code를 손으로 하기엔 무리가 있었다. 그래서 웹 자동화인 selenium을 이용했다. selenium과 BeautifulSoup을 이용해 버튼 클릭하고 웹페이지 정보를 스크래핑하는 코드를 만들어야했다. 스크래핑 후 몽고 디비에 zone_code 와 zone_code에 맞는 지역 이름으로 딕셔너리를 만들어 몽고 디비에 insert했다. 그 후엔 이제 지역을 설정하면 zone_code를 불러와 URL + zone_code 로 그 지역의 날씨를 불러왔다. 2. 핫 뉴스 검색 이건 그냥 네이버 현재 핫 뉴스를 BeautifulSoup을 이용해 긁어 왔다. 또 할 게 없어 그냥 몽고 디비에 계속 넣고 있다.

Coursera week 1 Machine Learning: Regression

이미지
1.  Regression fundamentals 집의 크기를 x값으로 두고 가격을 y값으로 둔 좌표 평면으로 집의 크기로 집의 가격을 예측해보는 예제이다. 그래프에 수식에 따른 정의를 잘 알아두어야겠다. xi , yi , f(xi) , f(x) 에 대한 차이점을 잘 숙지해두자. Regression의 flow chart 이다. 여기서 x,yhat,fhat,y에 대한 정의를 잘 숙지해두자. 알아도 다시 한 번 차근차근 다시 보자. 2. The simple linear regression model, its use, and interpretation 첫번째 그림에서 봤던 일차 방정식 yi를 더 자세히 나타낸 것이다. 앱실론에 대한 내용을 잘 기억하자. 공부하다가 RSS 를 계속 까먹어서 고생을 많이 했다. 에러 값의 제곱을 모두 더한 것이다. 그럼 에러 값이 모두 양수 값이 되서 Regression 모델들에서 RSS값이 작은 것이 가장 좋은 Regression model이 되는 것이다. 위 그림이 전체적인 과정이다. 내가 원하는 평수의 집은 얼마일까? 라는 질문에 답해줄 수 있는  간단한 Regssion model 이다. w0와 w1의 parameter 들의 값을 정하는 부분은 다음에 나올 것이다. 3. An aside on optimization: one dimensional objectives 이번에는 위 그림에서 how? 부분인 w0,w1 값을 어떻게 정할 것인가? 에 대해 공부 할 것이다. Optimization 에서 RSS의 최소점인 빨간점의 w0과 w1 값이 최적화 된 parameters 이다. 여기서 잠깐 Concave 와 Convex function에 대해 알고 가자. Concave 는 오목한 그래프이고 ex) -x^2  Convex 는 볼록한 그래프이다. ex) x^2 이것을 왜 알아야할...

#4 <안나 카레니나 (하)>를 읽으며..

드디어 안나 카레니나의 굴레에서 벗어나는 마지막 독후감이다. 1. 다리야 알렉산드로브나가 아이들에 대해 생각하며 하는 말이다. "나는 도저히 아이들을 내 힘만으로 양육하 수 없으니까 결국에 가서는 스스로를 낮추고 다른 사람의 힘이라도 빌 수 밖에 없을 거다. 가장 좋은 경우라 할지라도 다만 아이들이 불량배가 되지 않는 정도에 불과하다. 내가 바랄 수 있는 것은 뭐 그런 정도의 것일 분이다." 위 글을 보고 지친 부모의 마음을 느꼈다. 양육이라는 게 쉽지 않다고 생각한다. "건강하게만  자라다오."와 일맥상통하는 느낌을 받았다. 하지만 한국 부모님은 너무 아이들을 몰아부치는 것 같다. 오늘 봉사하는데 초등학생이 이번 앱 만들기 수업 뒤에 수학 학원을 간다는 말을 들었다. 나 때만 해도 중학교부터 다들 학원 다녔던 거 같은데 애들이 한편으로 안쓰러워 보였다. 2. 레빈이 결혼을 하면서 바뀐 성격에 대해 쓴 글이다. "레빈은 결혼한 이후 사람이 완전히 변해버리고 말았다. 그는 참을성이 대단히 강해져서, 어째서 그렇게 되어버렸는지 납득이 가지 않을 때에도 자신은 아무것도 모르니까 어리너저러니하고 판단을 내릴 수 없고, 틀림없이 그렇게 되어야 할 필요성이 있었겠지 하고 자신에게 타이르면서 되도록 화를 내지 않으려고 했다." 사람들이 결혼하면 다들 변한다고 한다. 진짜 변하는 것 같다. 하지만 이유를 모르겠다. 사람들의 성격이 둥글게 변한다고 해야하나.. 사랑하는 사람을 만나면 모든 세상사가 아름다워 보여서 그런가보다.. 3. 안나의 아들인 세료자가 시간이 지나 엄마에 대한 질문에 힘들어하는 장면이다. " "제발 나를 가만히 내버려두세요!" 소년은 이제 가정 교사에 대해서가 아니라 세상을 향해서 말하고 있었다." 안나의 오빠인 오블론스키는 세료자에게 엄마를 알고 있냐고 묻자 세료자는 모른다고 하고 방에 들어가 울고 만다. 가족에 대한 불편...

#4 <안나 카레니나 (상)>를 읽으며..

이미지
책 정보 저자 : 레프 톨스토이 출판사 : 범우사 아.. 약 3달간 이 책을 읽었다.. 중고서점에서 값 싸게 사서 좋아했지만 책 읽는 동안 많은 쪽수에 놀랐다. 많은 분량만큼 감명받은 부분 또한 많았다. 인생을 살아가는 데에 많은 교훈을 내포하고 있었다. 하지만 내가 못 찾은 부분도 많을 것이다. 다시 읽고 싶지만 엄두가 안난다. 오늘은 <안나 카레니나 (상)>까지만 하고 (하)는 다음에 써야겠다. 1. 우선 처음 생각나는 구절은 역시 첫 구절이다. 이 소설의 첫 구절은 이렇다.  “행복한 가정은 모두 엇비슷하고, 불행한 가정은 불행한 이유가 제각기 다르다.”  이 첫 구절이 1100쪽이라는 분량을 요약한 한 문장이다. 그리고 이것이  바로 안나 카레니나 법칙이다. 잘되는 집안은 다들 비슷하게 근심이 없고 건강하며 화목하지만, 안 되는 집안은 애정이든 금전이든 자녀든 천차만별의 이유로 불행해진다는 말이다.  2.  2달 전의 나는 300쪽동안 감명받은 구절이 없었나보다.. 졸면서 읽은건지 동감하지 못한 건지 기억은 안난다. 여하튼 314쪽에 콘스탄틴 레빈에 대한 구절이 동감이 갔었다. "레빈은 자연의 아름다움에 의해 대해 이야기하는 것도, 듣는 것도 좋아하지 않았다. 그에게 있어서 말이란 그가 눈으로 본 것으로부터 그 아름다움을 빼앗는 것이었다." 이 구절을 읽고 여러 가지 생각이 들었다. 우선 말이 너무 와닿았다. 말로 생각하는 동안 눈이 아름다움을 느끼는 순간을 빼앗는다라는 표현이 내가 생각하지 못한 것을 일깨워준 느낌이다. 반면 나는 오히려 눈으로 본 것을 말로서 표현하는 시인에 의해 일깨움을 느낀 적이 있다. 아름다움을 즐기는 그 순간에 집중하자라는 느낌이 좋았다. 3.  갑자기 300쪽부터 밑줄 친 부분이 많다.  300쪽 이후에 레빈에 대한 글이 많이 때문인 것 같다. 또한 톨스토이가 생각하는 옳고 그름이 레빈을...