일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 파이썬#파이썬경로#파이썬폴더#파이썬디렉토리
- 파파고 번역
- 파이썬 엑셀 파일 읽고 쓰기
- 파이썬 프로젝트
- ROS #spin() #spinOnce() #ROS기초
- ROS #Robotics #ROS기초
- 파이썬 텍스트 변환 #파이썬 공부
- 논문번역 꿀팁
- 파이썬 열
- 파이썬 음성인식
- 리눅스#모의해킹#리눅스명령어#head 명령어
- 파이썬 #파이썬프로젝트 #파이썬 예시 #파이썬 파일경로 #파이썬 자동화
- 리눅스기초#리눅스명령어#리눅스 tail#tail#모의해킹 리눅스
- 파이썬 파일 전송
- 파이썬 #
- 파이썬 예시
- 파이썬 유튜브
- 크롬오류#크롬검색어자동완성끄기#검색어자동완성오류#검색어자동완성 제거#검색어 노란선#검색어반복입력
- PDF 개행문자
- 파이썬#subprocess#communicate()
- 스트림 암호 one-time-pad 공격#보안#암호
- 통계 #ROC #TPR #FPR #TNR #이진분류 #Accuracy #Recall
- 파이선 행
- 파이썬 채팅
- QGC#QGrouncControl#GLIB오류
- pdf 번역
- 파이썬
- 파이썬 음성파일 텍스트 변환
- 파파고 꿀팁
- 패스트 캠퍼스 #자율주행 #비전
개발자비행일지
Detection Accuracy : 이진 분류 정확도 개념. TPR, TNR, FPR, FNR 본문
흔히 우리가 다루는 대상인 타겟 시스템이나 특정 대상은 일반적으로 정의된 상태나 행동을 가정하거나 우리가 이상적인 상황으로 상상합니다. 그러나 현실에서는 종종 우리의 가정과는 다른 불합리한 행동이나 실패가 발생할 수 있습니다. 이런 원치 않는 상황을 필터링하기 위해 우리는 감지 방법을 개발합니다.
감지 방법은 기본적으로 특정 입력이 우리가 정의한 것과 일치하는지 여부를 판단하는 이진 분류 방법입니다. 이러한 감지 방법의 성능을 평가하는 주요 지표 중 하나가 정확도입니다.
정확도 (Accuracy)
이는 간단한 지표로, 실제 입력 값이 얼마나 정확하게 탐지되었는지를 나타냅니다.
정확도 = (실제 참인 건 수) / (참으로 예측한 건 수)
한계
그러나 이진 분류의 경우, 데이터의 구성에 따라 정확도만으로는 모델의 성능을 충분히 평가할 수 없습니다. 특히 불균형한 레이블 값 분포에서는 정확도만으로는 모델의 성능을 신뢰할 수 없습니다.
오차 행렬 (Confusion Matrix)
오차 행렬은 이진 분류에서 발생하는 탐지 오류의 종류와 빈도를 시각화하는 데 사용됩니다. 각 셀은 실제 결과와 예측 결과에 따라 참과 거짓을 표시합니다.
아래 그림과 같은 오차 행렬은 이진 분류에서 탐지 오류가 얼마인지와 더불어 어떤 유형의 오류가 발생하는지를 표현하기 위해 사용된다. - 각 개념들은 자주 듣지만 헷갈리기 쉬운데 쉽게 생각해서 맨 앞의 글짜는, 내가 예측한 결과, 그 다음의 글짜는 참값(Ground Truth) 이다.
- TN (True Negative): 실제로 거짓이고 예측도 거짓
- FP (False Positive): 실제로 거짓인데 예측은 참
- FN (False Negative): 실제로 참인데 예측은 거짓
- TP (True Positive): 실제로 참이고 예측도 참
이러한 지표들은 서로 연관되어 있으며, 하나의 지표만으로는 모델의 성능을 제대로 평가할 수 없습니다. 따라서 Precision과 Recall을 함께 고려해야 합니다.
정확도 (Precision)와 재현율 (Recall)
정확도는 거짓 양성(FP)과 참 양성(TP)의 비율을 나타내며, 재현율은 거짓 음성(FN)과 참 양성(TP)의 비율을 나타냅니다.
- 정확도 (Precision): TP / (FP + TP)
- 재현율 (Recall): TP / (FN + TP)
모델의 성능을 평가할 때 하나의 수치만으로는 충분하지 않습니다. 어느 한 쪽의 수치를 높이면 다른 쪽은 감소하는 트레이드오프가 발생할 수 있기 때문입니다. 이에 따라 두 지표를 모두 고려하여 적절한 모델 평가를 해야 합니다.
ROC 곡선 (Receiver Operating Characteristic Curve)**
ROC 곡선은 이진 분류 모델의 성능을 평가하는 데 사용되는 시각적 도구입니다. 이 곡선은 다양한 임계값(threshold)에서의 재현율(TPR)과 거짓 양성 비율(FPR) 사이의 관계를 보여줍니다.
- **TPR (True Positive Rate)**: 실제 양성 중에서 올바르게 감지된 비율, 재현율로도 알려져 있습니다. 높은 TPR은 모델이 양성 케이스를 식별하는 데 효과적임을 나타냅니다.
- **FPR (False Positive Rate)**: 실제 음성 중에서 잘못된 양성으로 잘못 분류된 비율입니다. 낮은 FPR은 모델이 음성 케이스를 정확하게 분류하는 데 효과적임을 나타냅니다.
ROC 곡선은 왼쪽 상단 모서리에 가까울수록 성능이 뛰어납니다. 이는 높은 TPR을 유지하면서 낮은 FPR을 유지하는 모델을 나타냅니다. 그러나 ROC 곡선 하나의 값으로 모델을 비교하기 어렵기 때문에 곡선 아래 면적인 AUC (Area Under the Curve)를 사용하여 모델들을 평가합니다. AUC 값이 1에 가까울수록 모델의 성능이 우수합니다.
ROC 곡선과 AUC는 모델의 성능을 이해하고 비교하는 데 유용한 도구입니다. 또한 ROC 곡선은 임계값을 선택하는 데 도움이 됩니다. 임계값을 조정하면 TPR과 FPR이 변하므로 원하는 성능을 얻기 위해 적절한 임계값을 선택할 수 있습니다.
'▶Theory' 카테고리의 다른 글
Clustering 이란 (0) | 2023.01.10 |
---|---|
파이 수학기호 의미 수열의 곱: 파이(Π π (0) | 2021.03.31 |
iid(independent and identically distribution)란 (0) | 2021.03.31 |
cardinality 란 (0) | 2021.03.31 |
Covariance 공분산 (0) | 2021.03.26 |