정오분류표, 정확도, 민감도, 특이도: 헷갈리지 않는 완벽 가이드
데이터 분석과 머신러닝 분야에서 정오분류표(Confusion Matrix), 정확도(Accuracy), 민감도(Sensitivity), 특이도(Specificity)는 핵심적인 개념입니다. 하지만 이 개념들은 서로 밀접하게 관련되어 있으면서도 미묘한 차이를 가지고 있어 일반인들에게는 헷갈릴 수 있습니다.
이 글에서는 정오분류표를 기반으로 정확도, 민감도, 특이도의 정의, 계산 방법, 상호 연관 관계를 쉽고 명확하게 설명하여 헷갈림 없이 이해할 수 있도록 도와드리겠습니다.
1. 정오분류표: 예측 결과의 진실을 표로 보여주다
정오분류표는 실제 결과와 예측 결과를 비교하여 모델의 성능을 평가하는 데 사용되는 표입니다.
분류
|
실제 양성
|
실제 음성
|
예측 양성
|
TP (True Positive)
|
FP (False Positive)
|
예측 음성
|
FN (False Negative)
|
TN (True Negative)
|
- TP: 실제로 양성인 경우 모델이 양성으로 예측한 경우
- FP: 실제로 음성인 경우 모델이 양성으로 예측한 경우 (오류)
- FN: 실제로 양성인 경우 모델이 음성으로 예측한 경우 (오류)
- TN: 실제로 음성인 경우 모델이 음성으로 예측한 경우
2. 정확도: 얼마나 정확하게 맞추었는지
정확도는 모델이 전체 예측 중 얼마나 많은 예측을 정확하게 했는지를 나타내는 지표입니다.
정확도 = (TP + TN) / (TP + FP + FN + TN)
3. 민감도: 실제 양성을 얼마나 잘 찾아냈는지
민감도는 실제로 양성인 경우 모델이 양성으로 예측한 비율을 나타내는 지표입니다.
민감도 = TP / (TP + FN)
4. 특이도: 실제 음성을 얼마나 잘 구분했는지
특이도는 실제로 음성인 경우 모델이 음성으로 예측한 비율을 나타내는 지표입니다.
특이도 = TN / (TN + FP)
5. 정확도 vs 민감도 vs 특이도: 상황에 맞는 지표 선택
- 정확도: 전반적인 모델 성능을 평가하는 데 유용하지만, 데이터 불균형 (예: 양성 데이터보다 음성 데이터가 훨씬 많은 경우)에서는 오해의 소지가 있을 수 있습니다.
- 민감도: 실제로 양성인 경우를 얼마나 놓치지 않고 찾아내는지가 중요한 경우 (예: 질병 진단)에 유용합니다.
- 특이도: 실제로 음성인 경우를 얼마나 잘 구분하는지가 중요한 경우 (예: 스팸 필터)에 유용합니다.
6. 예시: 의료 진단 모델 평가
의료 진단 모델을 평가하는 경우, 민감도가 더 중요할 수 있습니다. 왜냐하면 질병을 가진 환자를 놓치는 것은 심각한 결과를 초래할 수 있기 때문입니다. 반면, 특이도는 건강한 환자를 오진하는 것을 방지하는 데 중요합니다.
7. 결론: 상황에 맞는 지표 활용
정오분류표, 정확도, 민감도, 특이도는 모델 성능을 다각적으로 평가하는 데 중요한 지표입니다. 데이터의 특성과 분석 목적에 따라 적절한 지표를 선택하고 해석하는 것이 중요합니다.
https://link.coupang.com/a/bIeyaJ
'Data Science' 카테고리의 다른 글
차원 축소: 변수 선택과 변수 추출의 비밀 무기 (1) | 2024.07.05 |
---|---|
비지도 학습 결과 평가: 산점도 활용 가이드 (0) | 2024.07.05 |
다중 회귀 분석에서 변수 선택(전진 선택/후진 소거/단계적 방법) (0) | 2024.07.03 |
시계열 데이터분석과 데이터 누수 data leakage (0) | 2024.07.02 |
다항 회귀 vs 다중 회귀 개념 차이점 비교 (0) | 2024.06.20 |