혼동행렬이란 예측결과와 실제값을 비교해서 얼마나 정답과 일치하는지 다양한 평가지표를 통해 판단
1. 정분류율, 정답률(Accuracy): 전체 관측치 중 올바르게 예측한 비율(모든 데이터의 판정 결과가 맞는지 여부를 산출)
- Accuracy = (TP + TN) / (TP + TN + FP + FN)
- 실제 데이터와 예측데이터가 얼마나 같은지 나타냄(1이 나오면 과적합 의심)
- 불균형한 레이블 값 분포에서 성능을 판단할 경우 적합하지 않음(사기예측, 암예측 등 1과 0이 비대칭한 데이터셋)
2. 정밀도, 적합률(Precision): True로 예측한 관측치 중 실제 True인 비율(양성 예측 중, 실제로 양성이 나타난 정도)
- Precision = TP / (TP + FP)
- 실제 음성인 데이터 예측을 양성으로 잘못판단하게 되면 업무상 큰 영향이 발생하는 경우 사용(일반메일을 스팸으로 잘못분류했을 때 업무에 차질)
3. 민감도, 재현율(Sensitivity, Recall): 출력결과가 실제 정답 중에서 얼마나 맞췄는지 나타내는 지표(정말로 양성으로 나타난 사례 중 양성으로 예측 할 수 있는 비율)
- Recall = TP / (TP + FN)
- 실제 양성데이터를 음성으로 잘못 판단하게 되면 업무상 큰 영향이 발생하는 경우 사용(암 예측, 사기 예측)
4. 특이도(Specificity): 실제 음성 중에서 음성을 음성이라고 맞춘 비율
- Specificity = TN / (FP + TN)
5. F1 Score: 정밀도와 재현율의 조화 평균(정확도와 재현율에 같은 가중치를 부여하는 평균)
- F1 Score = 2 / (1/precision + 1/recall) = (2*precision*recall) / (precision + recall)
- 정밀도와 재현율이 어느 한쪽으로 치우치지 않는 수치를 나타낼때 상대적으로 높은 값을 가짐(균형을 이룰때 수치가 높다)
- 시스템의 성능을 하나의 수치로 표현하기 위해 사용하는 점수로 0~1사이의 값을 가짐
'데이터사이언스 > 인공지능' 카테고리의 다른 글
(빅분기)앙상블(Ensemble)기법(보팅, 배깅, 부스팅) (0) | 2022.09.07 |
---|---|
CNN으로 사진 분류하기 (0) | 2022.08.29 |
간단한 신경망 만들기(보스턴 집값 예측하기) (0) | 2022.08.26 |
간단한 신경망 만들기(사인함수 예측하기) (0) | 2022.08.26 |
인공신경망 ANN 이해하기(인공지능 핵심용어 등) (0) | 2022.08.24 |