기계학습 강좌 week 1 - 2 from Youtube
Weekly Objectives
1. Motivate the study on2. Short questions and answers on a story
1) MLE
2) MAP
3. Some basics
2. Short questions and answers on a story
4) Incorporating Prior Knowledge (최대 사후 확률)
𝑷(𝜽|𝑫) = 𝑷(𝑫|𝜽) * 𝑷(𝜽) / 𝑷(𝑫)
5) More Formula fromBayes Viewpoint
𝑃(𝜃|𝐷) ∝(비례) 𝑃(𝐷|𝜃)𝑃𝜃
𝑃(𝐷|𝜃) =(𝜃^𝑎𝐻) * (1−𝜃)^𝑎𝑇
𝑃𝜃=????
Binomial distribution 이 아닌 Beta distribution 을 사용할 것은 베이즈가 제안
𝑃𝜃=(𝜃^(𝛼−1)) * (1−𝜃)^(𝛽−1)/𝐵(𝛼,𝛽)
𝐵(𝛼,𝛽) = Γ(𝛼)*Γ(𝛽)/Γ(𝛼+𝛽)
Γ(𝛼)=(𝛼−1)!
위 두 식을 연관지어 생각해보면
𝑃(𝜃|𝐷) ∝ 𝑃(𝐷|𝜃)𝑃𝜃 ∝(𝜃^(𝑎𝐻))*((1−𝜃)(𝑎𝑇))*𝜃^(𝛼−1)*(1−𝜃)^(𝛽−1)
=(𝜃^(𝑎𝐻+𝛼−1))*((1−𝜃)^(𝑎𝑇+𝛽−1))
6) Maximum a Posteriori Estimation
전에는 MLE를 통해 𝜃hat을 구할 수 있었다.
𝑃(𝐷|𝜃) =(𝜃^𝑎𝐻) * (1−𝜃)^𝑎𝑇
𝜃hat = 𝑎𝐻/(𝑎𝐻+𝑎𝑇)
이번에는 MAP를 이용해 𝜃hat을 구해보면
𝑃(𝜃|𝐷) ∝ (𝜃^(𝑎𝐻+𝛼−1))*((1−𝜃)^(𝑎𝑇+𝛽−1))
𝜃hat = (𝑎𝐻+𝛼−1) / (𝑎𝐻+𝛼+𝑎𝑇+𝛽−2)
두 방법의 해는 같지만 관점이 다르다.
하지만 MAP에서는 알파와 베타의 값을 조정해 다른 값을 도출해낼 수 있다.
7) Conclusion from Anecdote
실험의 수 N의 값을 점점 늘려가면 갈수록 MAP의 알파와 베타의 값은 영향력이 줄어들어 MAP와 MLE의 값은 같아진다.
하지만 N이 작다면 사전 정보인 알파와 베타의 값에 따라 해가 달라진다.
3. Basics
1) Probability : 확률
P(E) ∈ 𝑅 , P(E) ≥ 0 , P(Ω) = 1
if A ⊆ 𝐵 𝑡ℎ𝑒𝑛 P(A)≤𝑃(𝐵)
P(∅) = 0 , 0 ≤ P(𝐸) ≤ 1
P(A∪𝐵) = 𝑃(𝐴)+𝑃(𝐵)−𝑃(𝐴∩𝐵)
P(𝐸^𝐶)=1−𝑃(𝐸)
2) Conditional Probability : 조건부 확률
조건부확률에 대한 정의
𝑃(𝐴|𝐵) = 𝑃(𝐴∩𝐵)/𝑃(𝐵)
위와 같은 조건부확률을 통해 MAP에서 본 사후 확률 계산을 도출 할 수 있다.
𝑃(𝐵|𝐴) = 𝑃(𝐴|𝐵)*𝑃(𝐵)/𝑃(𝐴)
3) Probability Distribution : 확률 분포
A function mapping an event to a probability
왼쪽은 확률 밀도 함수이고 오른쪽은 누적 분포 함수이다.
예를 들면, 확률 밀도 함수는
𝑓(𝑥)=(𝑒^(−x^2/2))/2𝜋
와 같이 표현된다.
4) Normal Distribution : 정규 분포
확률 밀도 함수를 이용하여 나타내어지는 확률 분포를 정규분포라 한다.
•𝑓(𝑥;𝜇,𝜎) = 1/(𝜎*sqrt(2𝜋))*𝑒^(−(𝑥−𝜇)^2/2*𝜎^2)
•Notation: 𝑁(𝜇,𝜎2)
•Mean: 𝜇
•Variance: 𝜎2
5) Beta Distribution : 베타 분포
범위가 딱 떨어지는 분포는 베타 분포를 쓰면 좋다.
왜냐하면 확률밀도 함수같은 경우는 양쪽에 Long Tail 이라는 것이 있어서
범위가 불정확하기 때문이다.
아래와 같은 그래프를 보면 범위가 [0,1]로 딱 떨어진다.
parameter : 𝛼,𝛽
𝑓(𝜃;𝛼,𝛽) = (𝜃^(𝛼−1)) * (1−𝜃)^(𝛽−1)/𝐵(𝛼,𝛽)
𝐵(𝛼,𝛽) = Γ(𝛼)*Γ(𝛽)/Γ(𝛼+𝛽)
Γ(𝛼)=(𝛼−1)!
Notation: Beta(𝛼,𝛽)
Mean: 𝛼/(𝛼+𝛽)
Variance: 𝛼𝛽/(((𝛼+𝛽)^2)*(𝛼+𝛽+1))
6) Binomial Distribution : 이항 분포
continuous 한 확률에 대한 분포가 아닌 discrete 한 확률에 대한 분포이다.
예를 들면 동전 뒤집기, 압정 돌리기 등등.. 즉, 2가지의 가짓수를 가진 확률
parameter : 𝑛,𝑝
•𝑓(𝜃;𝑛,𝑝)=(𝑛 𝑘)T * (𝑝^𝑘)*(1−𝑝)^(𝑛−𝑘),(𝑛 𝑘)T = 𝑛!/(𝑘!*(𝑛−𝑘)!)
•Notation: B(𝑛,𝑝)
•Mean: 𝑛𝑝
•Variance: np(1−p)
7) Multinomial Distribution : 다항 분포
2가지가 아닌 여러 가지 수의 확률에 대한 분포이다.
텍스트 마이닝에 자주 쓰인다.
parameter : 𝑛,𝑝
•𝑓(𝑥1,…,𝑥𝑘 ; 𝑛, 𝑝1,…,𝑝𝑘) =𝑛!/(𝑥1!…𝑥𝑘!)*𝑝1^𝑥1…𝑝𝑘^𝑥𝑘
•Notation: Mult(𝑃), 𝑃=<𝑝1,…,𝑝𝑘>
•Mean: E(𝑥𝑖) = 𝑛𝑝𝑖
•Variance: Var𝑥𝑖=𝑛𝑝𝑖(1−𝑝𝑖)
댓글
댓글 쓰기