기계학습 강좌 week 1

기계학습 강좌 week 1 - 2 from Youtube

- 4월 06, 2016

Weekly Objectives

1. Motivate the study on
2. Short questions and answers on a story
1) MLE
2) MAP
3. Some basics

2. Short questions and answers on a story

4) Incorporating Prior Knowledge (최대 사후 확률)

𝑷(𝜽|𝑫) = 𝑷(𝑫|𝜽) * 𝑷(𝜽) / 𝑷(𝑫)

5) More Formula fromBayes Viewpoint

𝑃(𝜃|𝐷) ∝(비례) 𝑃(𝐷|𝜃)𝑃𝜃

𝑃(𝐷|𝜃) =(𝜃^𝑎𝐻) * (1−𝜃)^𝑎𝑇

𝑃𝜃=????

Binomial distribution 이 아닌 Beta distribution 을 사용할 것은 베이즈가 제안

𝑃𝜃=(𝜃^(𝛼−1)) * (1−𝜃)^(𝛽−1)/𝐵(𝛼,𝛽)

𝐵(𝛼,𝛽) = Γ(𝛼)*Γ(𝛽)/Γ(𝛼+𝛽)

Γ(𝛼)=(𝛼−1)!

위 두 식을 연관지어 생각해보면

𝑃(𝜃|𝐷) ∝ 𝑃(𝐷|𝜃)𝑃𝜃 ∝(𝜃^(𝑎𝐻))*((1−𝜃)(𝑎𝑇))*𝜃^(𝛼−1)*(1−𝜃)^(𝛽−1)

=(𝜃^(𝑎𝐻+𝛼−1))*((1−𝜃)^(𝑎𝑇+𝛽−1))

6) Maximum a Posteriori Estimation

전에는 MLE를 통해 𝜃hat을 구할 수 있었다.

𝑃(𝐷|𝜃) =(𝜃^𝑎𝐻) * (1−𝜃)^𝑎𝑇

𝜃hat = 𝑎𝐻/(𝑎𝐻+𝑎𝑇)

이번에는 MAP를 이용해 𝜃hat을 구해보면

𝑃(𝜃|𝐷) ∝ (𝜃^(𝑎𝐻+𝛼−1))*((1−𝜃)^(𝑎𝑇+𝛽−1))

𝜃hat = (𝑎𝐻+𝛼−1) / (𝑎𝐻+𝛼+𝑎𝑇+𝛽−2)

두 방법의 해는 같지만 관점이 다르다.

하지만 MAP에서는 알파와 베타의 값을 조정해 다른 값을 도출해낼 수 있다.

7) Conclusion from Anecdote

실험의 수 N의 값을 점점 늘려가면 갈수록 MAP의 알파와 베타의 값은 영향력이 줄어들어 MAP와 MLE의 값은 같아진다.

하지만 N이 작다면 사전 정보인 알파와 베타의 값에 따라 해가 달라진다.

3. Basics

1) Probability : 확률

E라는 이벤트에 대한 확률

P(E) ∈ 𝑅 , P(E) ≥ 0 , P(Ω) = 1

if A ⊆ 𝐵 𝑡ℎ𝑒𝑛 P(A)≤𝑃(𝐵)

P(∅) = 0 , 0 ≤ P(𝐸) ≤ 1

P(A∪𝐵) = 𝑃(𝐴)+𝑃(𝐵)−𝑃(𝐴∩𝐵)

P(𝐸^𝐶)=1−𝑃(𝐸)

2) Conditional Probability : 조건부 확률

조건부확률에 대한 정의

𝑃(𝐴|𝐵) = 𝑃(𝐴∩𝐵)/𝑃(𝐵)

위와 같은 조건부확률을 통해 MAP에서 본 사후 확률 계산을 도출 할 수 있다.

𝑃(𝐵|𝐴) = 𝑃(𝐴|𝐵)*𝑃(𝐵)/𝑃(𝐴)

3) Probability Distribution : 확률 분포

A function mapping an event to a probability

왼쪽은 확률 밀도 함수이고 오른쪽은 누적 분포 함수이다.

예를 들면, 확률 밀도 함수는

𝑓(𝑥)=(𝑒^(−x^2/2))/2𝜋

와 같이 표현된다.

4) Normal Distribution : 정규 분포

확률 밀도 함수를 이용하여 나타내어지는 확률 분포를 정규분포라 한다.

•𝑓(𝑥;𝜇,𝜎) = 1/(𝜎*sqrt(2𝜋))*𝑒^(−(𝑥−𝜇)^2/2*𝜎^2)

•Notation: 𝑁(𝜇,𝜎2)

•Mean: 𝜇

•Variance: 𝜎2

5) Beta Distribution : 베타 분포

범위가 딱 떨어지는 분포는 베타 분포를 쓰면 좋다.

왜냐하면 확률밀도 함수같은 경우는 양쪽에 Long Tail 이라는 것이 있어서

범위가 불정확하기 때문이다.

아래와 같은 그래프를 보면 범위가 [0,1]로 딱 떨어진다.

parameter : 𝛼,𝛽

𝑓(𝜃;𝛼,𝛽) = (𝜃^(𝛼−1)) * (1−𝜃)^(𝛽−1)/𝐵(𝛼,𝛽)

𝐵(𝛼,𝛽) = Γ(𝛼)*Γ(𝛽)/Γ(𝛼+𝛽)

Γ(𝛼)=(𝛼−1)!

Notation: Beta(𝛼,𝛽)

Mean: 𝛼/(𝛼+𝛽)

Variance: 𝛼𝛽/(((𝛼+𝛽)^2)*(𝛼+𝛽+1))

6) Binomial Distribution : 이항 분포

continuous 한 확률에 대한 분포가 아닌 discrete 한 확률에 대한 분포이다.

예를 들면 동전 뒤집기, 압정 돌리기 등등.. 즉, 2가지의 가짓수를 가진 확률

parameter : 𝑛,𝑝

•𝑓(𝜃;𝑛,𝑝)=(𝑛 𝑘)T * (𝑝^𝑘)*(1−𝑝)^(𝑛−𝑘),(𝑛 𝑘)T = 𝑛!/(𝑘!*(𝑛−𝑘)!)

•Notation: B(𝑛,𝑝)

•Mean: 𝑛𝑝

•Variance: np(1−p)

7) Multinomial Distribution : 다항 분포

2가지가 아닌 여러 가지 수의 확률에 대한 분포이다.

텍스트 마이닝에 자주 쓰인다.

parameter : 𝑛,𝑝

•𝑓(𝑥1,…,𝑥𝑘 ; 𝑛, 𝑝1,…,𝑝𝑘) =𝑛!/(𝑥1!…𝑥𝑘!)*𝑝1^𝑥1…𝑝𝑘^𝑥𝑘

•Notation: Mult(𝑃), 𝑃=<𝑝1,…,𝑝𝑘>

•Mean: E(𝑥𝑖) = 𝑛𝑝𝑖

•Variance: Var𝑥𝑖=𝑛𝑝𝑖(1−𝑝𝑖)

이 블로그 검색

Computer & Books