기계학습 강좌 week 1 - 2 from Youtube

Weekly Objectives

1. Motivate the study on
2. Short questions and answers on a story
   1) MLE
   2) MAP
3. Some basics


2. Short questions and answers on a story

4) Incorporating Prior Knowledge (최대 사후 확률)

𝑷(𝜽|𝑫) = 𝑷(𝑫|𝜽) * 𝑷(𝜽) / 𝑷(𝑫)

5) More Formula fromBayes Viewpoint

𝑃(𝜃|𝐷) ∝(비례) 𝑃(𝐷|𝜃)𝑃𝜃
𝑃(𝐷|𝜃) =(𝜃^𝑎𝐻) * (1−𝜃)^𝑎𝑇
𝑃𝜃=????

Binomial distribution 이 아닌 Beta distribution 을 사용할 것은 베이즈가 제안

𝑃𝜃=(𝜃^(𝛼−1)) * (1−𝜃)^(𝛽−1)/𝐵(𝛼,𝛽)
𝐵(𝛼,𝛽) = Γ(𝛼)*Γ(𝛽)/Γ(𝛼+𝛽) 
Γ(𝛼)=(𝛼−1)!

위 두 식을 연관지어 생각해보면
𝑃(𝜃|𝐷) ∝ 𝑃(𝐷|𝜃)𝑃𝜃 ∝(𝜃^(𝑎𝐻))*((1−𝜃)(𝑎𝑇))*𝜃^(𝛼−1)*(1−𝜃)^(𝛽−1)
=(𝜃^(𝑎𝐻+𝛼−1))*((1−𝜃)^(𝑎𝑇+𝛽−1))

6) Maximum a Posteriori Estimation

전에는 MLE를 통해 𝜃hat을 구할 수 있었다.
𝑃(𝐷|𝜃) =(𝜃^𝑎𝐻) * (1−𝜃)^𝑎𝑇
𝜃hat = 𝑎𝐻/(𝑎𝐻+𝑎𝑇)

이번에는 MAP를 이용해 𝜃hat을 구해보면
𝑃(𝜃|𝐷) ∝ (𝜃^(𝑎𝐻+𝛼−1))*((1−𝜃)^(𝑎𝑇+𝛽−1))
𝜃hat = (𝑎𝐻+𝛼−1) / (𝑎𝐻+𝛼+𝑎𝑇+𝛽−2)

두 방법의 해는 같지만 관점이 다르다.
하지만 MAP에서는 알파와 베타의 값을 조정해 다른 값을 도출해낼 수 있다.

7) Conclusion from Anecdote

실험의 수 N의 값을 점점 늘려가면 갈수록 MAP의 알파와 베타의 값은 영향력이 줄어들어 MAP와 MLE의 값은 같아진다. 
하지만 N이 작다면 사전 정보인 알파와 베타의 값에 따라 해가 달라진다.


3. Basics 

1) Probability : 확률

E라는 이벤트에 대한 확률
P(E) ∈ 𝑅 , P(E) ≥ 0  , P(Ω) = 1
if A ⊆ 𝐵 𝑡ℎ𝑒𝑛 P(A)≤𝑃(𝐵)
P(∅) = 0 , 0 ≤ P(𝐸) ≤ 1
P(A∪𝐵) = 𝑃(𝐴)+𝑃(𝐵)−𝑃(𝐴∩𝐵)
P(𝐸^𝐶)=1−𝑃(𝐸)



2) Conditional Probability : 조건부 확률

조건부확률에 대한 정의
𝑃(𝐴|𝐵) = 𝑃(𝐴∩𝐵)/𝑃(𝐵)
위와 같은 조건부확률을 통해 MAP에서 본 사후 확률 계산을 도출 할 수 있다.
𝑃(𝐵|𝐴) = 𝑃(𝐴|𝐵)*𝑃(𝐵)/𝑃(𝐴)




3) Probability Distribution : 확률 분포

A function mapping an event to a probability


왼쪽은 확률 밀도 함수이고 오른쪽은 누적 분포 함수이다.
예를 들면, 확률 밀도 함수는 
𝑓(𝑥)=(𝑒^(−x^2/2))/2𝜋
와 같이 표현된다.


4) Normal Distribution : 정규 분포


확률 밀도 함수를 이용하여 나타내어지는 확률 분포를 정규분포라 한다.
•𝑓(𝑥;𝜇,𝜎) = 1/(𝜎*sqrt(2𝜋))*𝑒^(−(𝑥−𝜇)^2/2*𝜎^2)
•Notation: 𝑁(𝜇,𝜎2)
•Mean: 𝜇
•Variance: 𝜎2

5) Beta Distribution : 베타 분포


범위가 딱 떨어지는 분포는 베타 분포를 쓰면 좋다.
왜냐하면 확률밀도 함수같은 경우는 양쪽에 Long Tail 이라는 것이 있어서 
범위가 불정확하기 때문이다.
아래와 같은 그래프를 보면 범위가 [0,1]로 딱 떨어진다.

parameter : 𝛼,𝛽
𝑓(𝜃;𝛼,𝛽) = (𝜃^(𝛼−1)) * (1−𝜃)^(𝛽−1)/𝐵(𝛼,𝛽)
𝐵(𝛼,𝛽) = Γ(𝛼)*Γ(𝛽)/Γ(𝛼+𝛽) 
Γ(𝛼)=(𝛼−1)! 
Notation: Beta(𝛼,𝛽)
Mean: 𝛼/(𝛼+𝛽)
Variance: 𝛼𝛽/(((𝛼+𝛽)^2)*(𝛼+𝛽+1))

6) Binomial Distribution : 이항 분포 


continuous 한 확률에 대한 분포가 아닌 discrete 한 확률에 대한 분포이다.
예를 들면 동전 뒤집기, 압정 돌리기 등등.. 즉, 2가지의 가짓수를 가진 확률

parameter : 𝑛,𝑝
•𝑓(𝜃;𝑛,𝑝)=(𝑛 𝑘)T * (𝑝^𝑘)*(1−𝑝)^(𝑛−𝑘),(𝑛 𝑘)T = 𝑛!/(𝑘!*(𝑛−𝑘)!)
•Notation: B(𝑛,𝑝)
•Mean: 𝑛𝑝
•Variance: np(1−p)

7) Multinomial Distribution : 다항 분포

2가지가 아닌 여러 가지 수의 확률에 대한 분포이다.
텍스트 마이닝에 자주 쓰인다.

parameter : 𝑛,𝑝
•𝑓(𝑥1,…,𝑥𝑘 ; 𝑛, 𝑝1,…,𝑝𝑘) =𝑛!/(𝑥1!…𝑥𝑘!)*𝑝1^𝑥1…𝑝𝑘^𝑥𝑘
•Notation: Mult(𝑃), 𝑃=<𝑝1,…,𝑝𝑘>
•Mean: E(𝑥𝑖) = 𝑛𝑝𝑖
•Variance: Var𝑥𝑖=𝑛𝑝𝑖(1−𝑝𝑖)

댓글

이 블로그의 인기 게시물

윈도우 설치에서 파티션 설정 오류(NTFS)

[exploit writing] 1_스택 기반 오버플로우 (1) First

하둡 설치 오류 정리