관리 메뉴

개발자비행일지

Detection Accuracy : 이진 분류 정확도 개념. TPR, TNR, FPR, FNR 본문

▶Theory

Detection Accuracy : 이진 분류 정확도 개념. TPR, TNR, FPR, FNR

Cyber0946 2024. 2. 19. 16:43

흔히 우리가 다루는 대상인 타겟 시스템이나 특정 대상은 일반적으로 정의된 상태나 행동을 가정하거나 우리가 이상적인 상황으로 상상합니다. 그러나 현실에서는 종종 우리의 가정과는 다른 불합리한 행동이나 실패가 발생할 수 있습니다. 이런 원치 않는 상황을 필터링하기 위해 우리는 감지 방법을 개발합니다.

감지 방법은 기본적으로 특정 입력이 우리가 정의한 것과 일치하는지 여부를 판단하는 이진 분류 방법입니다. 이러한 감지 방법의 성능을 평가하는 주요 지표 중 하나가 정확도입니다.

정확도 (Accuracy)

이는 간단한 지표로, 실제 입력 값이 얼마나 정확하게 탐지되었는지를 나타냅니다.

정확도 = (실제 참인 건 수) / (참으로 예측한 건 수)

한계

그러나 이진 분류의 경우, 데이터의 구성에 따라 정확도만으로는 모델의 성능을 충분히 평가할 수 없습니다. 특히 불균형한 레이블 값 분포에서는 정확도만으로는 모델의 성능을 신뢰할 수 없습니다.

오차 행렬 (Confusion Matrix)

오차 행렬은 이진 분류에서 발생하는 탐지 오류의 종류와 빈도를 시각화하는 데 사용됩니다. 각 셀은 실제 결과와 예측 결과에 따라 참과 거짓을 표시합니다.

아래 그림과 같은 오차 행렬은 이진 분류에서 탐지 오류가 얼마인지와 더불어 어떤 유형의 오류가 발생하는지를 표현하기 위해 사용된다. - 각 개념들은 자주 듣지만 헷갈리기 쉬운데 쉽게 생각해서 맨 앞의 글짜는, 내가 예측한 결과, 그 다음의 글짜는 참값(Ground Truth) 이다.

  • TN (True Negative): 실제로 거짓이고 예측도 거짓
  • FP (False Positive): 실제로 거짓인데 예측은 참
  • FN (False Negative): 실제로 참인데 예측은 거짓
  • TP (True Positive): 실제로 참이고 예측도 참

이러한 지표들은 서로 연관되어 있으며, 하나의 지표만으로는 모델의 성능을 제대로 평가할 수 없습니다. 따라서 Precision과 Recall을 함께 고려해야 합니다.

정확도 (Precision)와 재현율 (Recall)

정확도는 거짓 양성(FP)과 참 양성(TP)의 비율을 나타내며, 재현율은 거짓 음성(FN)과 참 양성(TP)의 비율을 나타냅니다.

  • 정확도 (Precision): TP / (FP + TP)
  • 재현율 (Recall): TP / (FN + TP)

모델의 성능을 평가할 하나의 수치만으로는 충분하지 않습니다. 어느 쪽의 수치를 높이면 다른 쪽은 감소하는 트레이드오프가 발생할 있기 때문입니다. 이에 따라 지표를 모두 고려하여 적절한 모델 평가를 해야 합니다.

ROC 곡선 (Receiver Operating Characteristic Curve)**

ROC 
곡선은 이진 분류 모델의 성능을 평가하는  사용되는 시각적 도구입니다 곡선은 다양한 임계값(threshold)에서의 재현율(TPR) 거짓 양성 비율(FPR) 사이의 관계를 보여줍니다.

- **TPR (True Positive Rate)**: 
실제 양성 중에서 올바르게 감지된 비율재현율로도 알려져 있습니다높은 TPR 모델이 양성 케이스를 식별하는  효과적임을 나타냅니다.
- **FPR (False Positive Rate)**: 
실제 음성 중에서 잘못된 양성으로 잘못 분류된 비율입니다낮은 FPR 모델이 음성 케이스를 정확하게 분류하는  효과적임을 나타냅니다.

ROC 
곡선은 왼쪽 상단 모서리에 가까울수록 성능이 뛰어납니다이는 높은 TPR 유지하면서 낮은 FPR 유지하는 모델을 나타냅니다그러나 ROC 곡선 하나의 값으로 모델을 비교하기 어렵기 때문에 곡선 아래 면적인 AUC (Area Under the Curve) 사용하여 모델들을 평가합니다. AUC 값이 1 가까울수록 모델의 성능이 우수합니다.

ROC 
곡선과 AUC 모델의 성능을 이해하고 비교하는  유용한 도구입니다또한 ROC 곡선은 임계값을 선택하는  도움이 됩니다임계값을 조정하면 TPR FPR 변하므로 원하는 성능을 얻기 위해 적절한 임계값을 선택할  있습니다.

'▶Theory' 카테고리의 다른 글

Clustering 이란  (0) 2023.01.10
파이 수학기호 의미 수열의 곱: 파이(Π π  (0) 2021.03.31
iid(independent and identically distribution)란  (0) 2021.03.31
cardinality 란  (0) 2021.03.31
Covariance 공분산  (0) 2021.03.26