관리 메뉴

개발자비행일지

Variance, Covariance 분산, 공분산 본문

▶Theory

Variance, Covariance 분산, 공분산

Cyber0946 2021. 3. 15. 19:17

Variance와 Covaricance는 각각 분산과 공분산을 말한다.

먼저 분산은 데이터가 있을때 그 결과가 신뢰할 만한가를 알아보기 위한데 사용된다. 즉 그 데이터의 분포가 고른지 아니면 너른지를 말해주는 수치이다. 

예를 들어 실험을 통해 수집한 데이터가, 이론적으로 평균이 m이라 할 때, 실제 수집 데이터가 이상적이고 신뢰할 수 있기 위해서는 표본평균이 m이고, 분산이 0 일 때 최대 신뢰를 가진다고 할 수 있다. 

아래의 그림을 보면 글에서 말하는 신뢰도가 무엇인지 쉽게 이해할 수 있다. 

자 그럼 수식으로 알아보자.

1. variance;분산 : 평균적인 편차(표준편차)의 제곱 

 

 

variance에 루트를 씌어주면 표준편차다.

표준편차 구할땐 분산을 먼저 구한다음에 루트를 씌운다.

즉 모든 x값에 대해 x평균과의 차이를 제곱해서 다 더한 다음에 x의 수로 나누면 평균적인 차이의 제곱, 즉 분산이 나온다. 그럼 왜 표준편차가 아닌 제곱값인 분산이 필요한가???

여기에 대한 가장 쉬운 대답은 효용성이다. 표준편차를 구하려면 결국 분산을 구한 후 이를 제곱근의 형태로 표현하기 때문에 분산을 사용하면 된다. 하지만 a와 b의 분산이 2배 차이난다고 하고 a가 b보다 분산이 1/2라고 해서  a가 b보다 2배 신뢰성 있다고는 할 수 없다. 이러한 정량적 분석을 위해서 사용하는 것이 표준편차이다. 

2. covariance; 공분산  : 두 변수간 평균적인 편차의 곱이다.

공분산은 사실 분산을 일반화 한 것에 가깝다. 우리가 흔히 말하는 분산 X는 x와 x에 대한 분산이라고 생각하면 된다. 이러한 공분산은 그 값이  0에 가까울수록 공동 변화량이 없는거다. 즉 0에 수렴할 수록 x와 y는 서로 독립적인 값이 되는 것이다. 

절대값이 클수록 공동 변화량이 큰거다. (상관관계)

 

 



참조: https://igija.tistory.com/294 [search & research]