Coursera week 6 Machine Learning: Classification

1. Why use precision & recall as quality metrics


정확도(accuracy) 측정 문제에서 정밀도(precision)과 재현율(recall)이 중요하다.
위 두가지는 trade off 관계로 이루어져 있다. 일반적으로 recall 이 높다면 precision이 낮아지고, recall 이 낮다면 precision이 높아진다.

2. Precision and recall explained

재현율과 정밀도를 설명하기 전에 내가 예측한 값과 실제 값에 대한 표를 기억해두자.

2.1 Precision


precision을 위와 같이 그림으로 나타낼 수 있다.
내가 참이라고 예측한 값 중 실제 값이 참일 가능성이다.

precision = true positives / (true positives + false positives)

최고값은 1.0 이고 최저값은 0.0 이다.

2.2 Recall


recall을 위와 같이 표현할 수 있다.
데이터 포인트의 모든 참 값 중 내가 참이라고 예측한 값일 가능성이다.

recall = true positives / (true positives + false negative)

최고값은 1.0 이고 최저값은 0.0 이다.

3. The precision-recall trade-off


우리가 원하는 모델은 높은 재현율과 낮은 정밀도를 갖는 모델이다.
즉, 모든 참인 데이터포인트 중 예측한 값이 참일 확률이 높은 모델이 좋은 모델이다.


위와 같이 recall과 precision은 반비례관계를 갖고 있다.


그렇다면 어떻게 optimistic model 을 만들 수 있을까?
기본적인 방법은 threshold를 낮추는 것이다.
왜냐하면 너무 높이게 되면 실제 참인 값이 대부분 거짓값으로 예측하기 때문이다.


위 내용을 위 그림으로 요약할 수 있다.

이제는 classifier를 비교해보자.


같은 precision 값에서  어떤 classifier가 더 높은 recall 값을 갖는지 비교하면
어떤 classifier가 좋은 것인지 알 수 있다.

다음 모듈에서는 큰 데이터에서 왜 gradient descent 가 적용되기 힘든 지와 gradient descent를 대체할 알고리즘에 대해 알아볼 것이다. 또한 online streaming data 에 대해 간단히 알아 볼 것이다.  

댓글

이 블로그의 인기 게시물

윈도우 설치에서 파티션 설정 오류(NTFS)

[exploit writing] 1_스택 기반 오버플로우 (1) First

하둡 설치 오류 정리