분류기에는 여러가지 평가 방법이 존재합니다.
가장 대표적으로는 정확도로 평가하는 방법이 존재합니다.
하지만 항상 정확도로 평가하는 것이 좋은 평가방법이 되지는 않습니다.
다음과 같이 비율이 조금 편향된 데이터로 학습한다고 예를 들어보겠습니다.
암 검진 결과 10000개의 훈련사례가 주어진다고 해봅시다.
9500개는 음성이고, 500개가 양성이라면 분류기가 전부 음성이라고 판단했을 때에도 정확도가 95%입니다.
그렇기 때문에 우리는 다른 평가방법을 사용해야 하고,
정밀도와 재현율이라는 것이 존재합니다.
그 전에 먼저 알아야 하는 것들이 있습니다.
오차 행렬이라는 것인데, confusion matrix라고도 불려집니다.
TP, TN, FP, FN 이렇게 네개의 용어를 알고 가야합니다.
TP는 True Positive로 양성이라고 예측했고, 맞았다는 것입니다.
TN은 True Negative로 음성이라고 예측했고, 맞았다는 것입니다.
FP는 False Positive로 양성이라고 예측했고. 틀렸다는 것입니다.
FN은 False Negative로 음성이라고 예측했고, 틀렸다는 것입니다.
오차행렬의 행은 실제 카테고리이고, 열은 예측 카테고리입니다.
음성(0), 양성(1)에 관해 confusion matrix를 구한다고 한다면
0 1
0 10 3
1 4 11
이렇게 나올 것입니다.
주대각선의 값이 높을수록 잘 예측한 것입니다.
완벽한 분류기의 confusion matrix은 주대각선을 제외하고 전부 0인 대각행렬이 될 것입니다.
이제 정밀도와 재현율을 알아봅시다.
위에서 보았던 confusion matrix에서 TN, TP, FN, FP를 구해보면 다음과 같습니다.
TN = 10
TP = 11
FN = 4
FP = 3
정밀도 = TP / (TP + FP) = 11 / (11 + 3) = 11/14 = 0.7857 ... (%) (예측했고 맞은 양성 / 예측 양성)
재현율 = TP / (TP + FN) = 11 / (11 + 4) = 11/15 = 0.7333 ... (%) (예측했고 맞은 양성 / 데이터셋 양성)
정밀도와 재현율의 조화평균을 구하는 F1 SCORE도 존재합니다.
그렇게 F1 SCORE 또한 구해보면 0.7586 ..... (%) 가 나옵니다.
대부분 분류기를 정밀도와 재현율로 평가한다고 할 때에 F1 SCORE를 사용하여 평가하기도 하지만, 그것도 항상 좋은 방법은 아닙니다.
맨 처음 예를 들었던 것과 같이 암환자를 분류해야한다면 정밀도를 낮추더라도 재현율을 높이는 것이 좋을 것입니다.
정밀도와 재현율은 서로 트레이드오프가 존재합니다.
몇몇 분류기는 decision function 이라는 결정함수를 사용하여 임곗값을 기준으로 이진 분류를 진행합니다.
임곗값을 바꾸면서 정밀도와 재현율을 측정해보았을 때 다음과 같은 그래프를 얻을 수 있습니다.
precision(정밀도)가 내려가면 recall(재현율)이 올라가는 관계를 확인할 수 있을 것입니다.
실제 사용하는 분류기의 목적과 상황을 적절히 판단하여 목표로하는 정밀도와 재현율을 정해야 할 것이며, 그에 따른 임곗값도 잘 도출해내야 할 것입니다.
'인공지능 > 이론' 카테고리의 다른 글
(6) 선형 회귀 (0) | 2021.10.10 |
---|---|
(5) ROC 곡선 (0) | 2021.10.07 |
(3) 사례기반학습과 모델기반학습 (0) | 2021.10.06 |
(2) 지도학습과 비지도학습 (0) | 2021.10.06 |
(1) 머신러닝이란? (0) | 2021.10.06 |