기계학습 강좌 week 1 - 1 from Youtube
Weekly Objectives
1. Motivate the study on2. Short questions and answers on a story
1) MLE
2) MAP
3. Some basics
1. Motivation
초반에는 머신 러닝의 예제를 주로 다룬다.
1) Supervised Learning
•데이터의 목적 값을 알려주고 훈련시키는 learning
•Cases, such as
•Spam filtering
•Automatic grading
•Automatic categorization
•Classification or Regression of
•Hit or Miss: Something has either disease or not.
•Ranking: Someone received either A+, B, C, or F.
•Types: An article is either positive or negative.
•Value prediction: The price of this artifact is X.
•Methodologies
•Classification: estimating a discrete dependent value from observations
•Regression: estimating a (continuous) dependent value from observations
1) Unsupervised Learning
• supervision 없이 목적값을 주지 않고 패턴을 컴퓨터가 직접 찾는 learning
•Cases, such as
•Discovering clusters
•Discovering latent factors
•Discovering graph structures
•Clustering or filtering or completing of
•Finding the representative topic words from text data
•Finding the latent image from facial data
•Completing the incomplete matrix of product-review scores
•Filtering the noise from the trajectory data
•Methodologies
•Clustering: estimating sets and affiliations of instances to the sets
•Filtering: estimating underlying and fundamental signals from the mixture of signals and noises
2. Short questions and answers on a story
Thumbtack 예제를 통해 최우추정법 (MLE)에 대해 공부한다.
1) Binomial Distribution
이산적인(yes/no, top/bottom ...) 사건에 대한 확률분포를 뜻한다.
또한 Thumbtack처럼 압정을 돌려보는 실험을 베르누이 실험이라 한다.
Flips are I.I.D
1. 두 사건은 독립
2. 동일한 확률 분포를 갖는다.
•P(H) = θ, P(T)=1-θ
•P(HHTHT)=θθ(1-θ)θ(1-θ)=θ3(1-θ)2
•Let’s say
•D as Data = H,H,T,H,T
•n=5
•k=aH=3
•p=θ
•𝑃(𝐷|𝜃) =𝜃^(𝑎𝐻)(1−𝜃)^(𝑎𝑇)
2) Maximum Likelihood Estimation (MLE)
확률을 최대화하는 𝜽hat 을 찾는 방법
𝜽hat = 𝒂𝒓𝒈𝒎𝒂𝒙𝜽𝑷(𝑫|𝜽) = 𝑎𝑟𝑔𝑚𝑎𝑥𝜃𝜃^𝑎𝐻(1−𝜃)^𝑎𝑇
𝜃hat = 𝑎𝑟𝑔𝑚𝑎𝑥𝜃𝑙𝑛𝑃(𝐷|𝜃) = 𝑎𝑟𝑔𝑚𝑎𝑥𝜃ln𝜃𝑎𝐻1−𝜃𝑎𝑇
=𝑎𝑟𝑔𝑚𝑎𝑥𝜃{𝑎𝐻𝑙𝑛𝜃+𝑎𝑇ln(1−𝜃)}
여기서 𝜃hat을 최대화시키는 방법은 미분을 사용해 극점을 이용한다.
𝑑/𝑑𝜃*𝑎𝐻*𝑙𝑛𝜃+𝑎𝑇*ln(1−𝜃) = 0
𝑎𝐻*𝜃−𝑎𝑇*(1−𝜃) = 0
𝜃hat = 𝑎𝐻/(𝑎𝑇+𝑎𝐻)
3) Simple Error Bound
5번 실험과 50번 실험을 한 것과 결과가 같은 때 50번 실험의 이점은?
50번 하면 에러가 줄어든다.
수식으로 표현하자면,
𝜃* 을 압정 돌리기가 가지는 진짜 확률이라하고,
ε 를 에러가 일어날 확률이라 할 때,
𝑃(| 𝜃hat−𝜃∗|≥𝜀)≤2*𝑒^(−2*𝑁*𝜀^2)
ε 과 전체 경우의 수 N이 커지면 커질 수록 𝜃hat과 𝜃∗의 오차는 줄어든다.
댓글
댓글 쓰기