분산

확률론통계학에서 어떤 확률변수분산(分散, 영어: variance,)은 그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다.[1] 기댓값은 확률변수의 위치를 나타내고 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다. 분산은 표본 평균이나 분산의 제곱근표준편차와 보다 밀접한 관련이 있다.

평균은 같지만 분산은 다른 두 확률 분포. 빨간색 분포는 100의 평균값과 100의 분산값을 가지고, 파란색 분포는 100의 확률값과 2500의 분산값을 가진다. SD는 표준편차를 의미한다.

분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.

모분산(population variance) σ2모집단의 분산이다. 관측값에서 모 평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것이다.

표본분산(sample variance) s2표본의 분산이다. 관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다.

정의

확률변수 의 분산은 의 기댓값 로부터 확률변수가 얼마나 떨어져있는지 그 정도를 제곱한 것의 기댓값과 같다. 이를 수식으로 나타내면 다음과 같다.

이를 기댓값에 대해 확장해보면 다음과 같이 정리할 수 있다.

따라서 확률변수 의 분산은 제곱의 기댓값에서 기댓값의 제곱을 뺀 것과 같다. 이 방식을 통해 어떤 확률변수의 분산을 간단하게 계산할 수 있다. 다만 부동소수점 연산에서는 이러한 방식을 사용하면 정확한 값을 얻지 못할 수도 있다.

이 정의는 이산확률변수, 연속확률변수, 칸토어 분포 등 모든 꼴의 확률분포에 적용된다. 분산은 공분산을 사용해 다음과 같이 나타내기도 한다.

분산은 보통 또는 , 혹은 간단히 으로 표현한다. 표준편차를 가리킨다.[1]

이산확률변수에서

만일 확률 변수 의 생성 원리가 확률 질량 함수를 따르는 이산확률분포라면, 분산은 다음과 같이 정의할 수 있다.

이와 다음의 식은 동치이다.

이 때 는 기댓값을 의미한다. 이 가중 산술 평균에 사용되는 가중치 p의 합이 1이 아니라고 한다면, 각 가중치를 총 가중치 합으로 나누어 확률과 같은 성격을 가지게 조정해야 한다.

번의 동일한 측정을 통해 얻은 데이터에서 분산은 다음과 같이 나타낼 수 있다.

여기서 는 평균값을 의미한다. 이를 풀어서 쓰면 다음과 같다.[2]

완전연속확률변수에서

만일 확률 변수 의 생성 원리가 확률 밀도 함수 누적 분포 함수 를 따르는 연속확률분포라면, 분산은 다음과 같이 구할 수 있다.

이는 확률 밀도 함수 를 이용해 다음과 같이 적을 수 있다.

여기서 는 확률 변수 의 기댓값이다.

여기서 에 대한 적분은 르베그 적분을, 에 대한 적분은 르베그-스틸티어스 적분을 의미한다.

만일 가 모든 폐구간 에서 리만 적분 가능한 함수라면 분산은 이상 적분을 통해 다음과 같이 서술할 수 있다.

성질

기본적인 성질

어떤 실수의 제곱은 0 이상이므로 분산은 항상 0 이상의 값을 가진다.

상수의 분산은 0의 값을 가진다.

이 역도 성립하여, 만일 어떤 확률변수 에 해당하는 분산값이 0이라면 그 확률 변수는 늘 상숫값을 출력한다.

정의에 의해 분산이 평균값 μ에 대해 독립변수라는 것은 쉽게 알 수 있다. 즉, 전체 집단의 값이 b만큼 이동해 X + b가 되어도 전체 집단의 분산은 변하지 않는다. 그러나 전체 집단에 같은 값 a를 곱하면 분산은 a2배가 된다. 식으로 쓰면 다음과 같다.

두 확률변수를 더하여 만든 새로운 확률 변수의 분산은 다음과 같이 나타낼 수 있다.

이 때 XY공분산을 나타낸다. 이를 N개의 확률변수 의 경우에 대해 일반화하면 다음과 같이 쓸 수 있다.

만일 확률 변수 가 서로 비상관관계라면 다음의 성질을 만족한다.

이는 곧 다음을 의미한다.

상호 독립적인 확률변수들은 항상 비상관관계에 놓여있기 때문에 위의 식은 확률 변수 가 서로 독립적인 경우에도 적용 가능하다. 이처럼 독립적인 확률 변수의 합의 분산이 각각의 분산의 합과 같다는 성질 때문에 분포를 표현할 때 분산을 유용하게 사용할 수 있다.

분산의 단위는 확률변수를 나타내는 데 사용된 단위의 제곱이 되어야 한다. 예를 들면 센티미터로 잰 높이 집단의 분산은 제곱센티미터가 될 것이다. 이것은 여러 가지 불편을 유발하므로 많은 통계학자들은 집단과 같은 단위를 사용하는 표준편차를 주로 쓴다.

통계적 추정

표본 분산

모집단의 분산은 로 나타내고, 표본의 분산은 로 나타낸다. 은 모집단 분산의 추정치라고 할 수 있다. 표본 내의 어떤 변인 Y가 가지는 모집단 분산의 추정치인 표본 분산 는 다음과 같다.

: 표본 분산
: 변인
: 표본의 평균
: 표본의 크기
: 편차들의 제곱합
: 자유도

분모를 n-1로 나누는 이유는 분산을 계산할 때 모평균이 아닌 표본 평균을 사용했기 때문에 모집단의 편의 추정량(biased estimator)이 되므로, 분산이 불편 추정량(unbiased estimator)이 되도록 하기 위해서이다.[1]

모 분산

모집단의 분산(모 분산)
: 변인
: 모집단의 평균
: 표본의 크기

표준 편차

모집단의 모분산 으로부터 편차 단위를 얻기위해 제곱근함으로써 모집단 표준 편차 를 얻을수있다.

표본집단의 표본분산 으로부터 편차 단위를 얻기위해 제곱근함으로써 표본 표준 편차 를 얻을수있다.

컴퓨팅

컴퓨터 프로그램의 대표적인 경우에서 스프레드시트는 var() 함수로 결과값을 기본적으로는 간단히 처리할 수 있다.

같이 보기

각주