![](https://blog.kakaocdn.net/dn/bStjbf/btsgqBE8I5F/RWo6tjo1kSdqeqRWzsNg5k/img.png)
표본분산은 모집단의 분산을 추정하는 것입니다. 모집단의 분산은 모집단 내의 데이터가 얼마나 퍼져 있는지 측정한 것입니다. 표본분산은 표본 내의 데이터가 얼마나 퍼져 있는지 측정한 것입니다.
표본분산은 다음과 같이 정의됩니다.
![](https://blog.kakaocdn.net/dn/ey6Sxy/btsgqATNUo4/9QcQws1I9TPo5SarLKqsDk/img.png)
여기서 xi는 표본의 i번째 값이고, xˉ는 표본의 평균입니다. 분모의 n−1은 자유도라고 합니다.
자유도는 모집단의 분산을 추정할 때 사용할 수 있는 독립 변수의 수입니다. 모집단의 분산은 모집단 내의 모든 데이터를 알고 있어야 계산할 수 있습니다. 그러나 표본은 모집단의 작은 부분일 뿐입니다. 따라서 표본분산은 모집단의 분산을 추정하는 데 사용할 수 있는 독립 변수의 수가 n−1입니다.
예를 들어, 모집단의 크기가 n=100이고 표본의 크기가 n=10이면 자유도는 10−1=9입니다. 이것은 모집단의 분산을 추정할 때 사용할 수 있는 독립 변수가 9개라는 것을 의미합니다.
분모의 n−1은 표본분산을 무편향 추정량으로 만듭니다. 즉, 분모의 n−1을 사용하면 표본분산이 모집단의 분산을 정확하게 추정할 가능성이 더 높습니다.
표본분산의 분모가 n-1인 이유는 통계학에서 표본분산을 계산할 때, 표본이 모집단을 대표하기 위해 무작위로 추출되는 경우를 가정하는 통계적인 이론적 근거에 기인합니다. 이 가정에 따르면, 표본 추출 시 하나의 자료를 추출하면 그 자료는 다른 자료와 독립적으로 간주됩니다.
통계적으로 독립적인 n개의 표본 자료를 사용하여 모집단의 분산을 추정하는 경우, 표본 분산은 일반적으로 모집단 분산보다 작게 나타납니다. 이것은 표본 데이터가 통계적으로 독립적이기 때문에 발생하는 현상으로, n-1을 분모로 사용함으로써 이 편향을 보정하려는 의도가 있습니다.
자유도의 개념과 관련하여, 자유도는 통계적 추정에 사용된 독립적인 정보의 수를 나타냅니다. 표본 분산의 경우, n개의 표본 자료를 사용하여 통계적으로 추정하는데, 이 중 마지막 자료는 다른 자료들에 의해 조건이 주어지기 때문에 독립적인 정보로 간주되지 않습니다. 따라서, 자유도는 n-1로 설정되어 표본 분산을 정확하게 추정할 수 있도록 보정합니다.
결론적으로, 표본분산의 분모를 n-1로 사용하는 것은 통계적으로 추정된 표본 분산이 모집단의 분산을 더 정확하게 반영하도록 하기 위한 통계적인 보정 방법입니다.
물건의 무게를 측정하기 위해 10번의 측정을 하였다고 가정해봅시다. 만약 모든 측정값을 사용하여 평균을 구하고, 그 평균과 각각의 측정값과의 차이를 제곱하여 평균을 구한다면, 이것이 표본분산이 됩니다. 그런데 이 때, 분모를 n으로 하면 잘못된 결과를 얻을 수 있습니다.
왜냐하면 표본을 추출할 때 한 번 측정한 값은 다음에 측정할 때 영향을 미치지 않기 때문에, 독립적인 값으로 간주됩니다. 그러나 표본 추출 과정에서는 모집단에서 샘플을 하나씩 추출하다 보니 마지막 측정값은 이전 측정값들에 의해 이미 결정되어 있습니다. 그렇기 때문에 마지막 측정값은 독립적인 정보가 아니라고 볼 수 있습니다.
이 때문에 통계학에서는 표본 분산을 계산할 때 분모를 n이 아니라 n-1로 사용합니다. n-1을 분모로 사용함으로써, 이 마지막 측정값에 대한 정보를 제외하고 평균과 각각의 측정값과의 차이를 계산하여 평균을 구하게 됩니다. 이렇게 함으로써 표본 분산이 모집단의 분산을 더 정확하게 추정할 수 있도록 보정하는 것이죠.
간단히 말하면, 표본 분산의 분모를 n-1로 하는 이유는 마지막 측정값이 다른 측정값들에 의해 이미 결정되어 있다고 가정하기 때문에, 독립적인 정보로 간주하지 않기 위함입니다.
'Data Science' 카테고리의 다른 글
[인공지능] 지도학습 분류 vs 비지도학습 군집화 비교 (0) | 2023.05.23 |
---|---|
[책리뷰] 전공책 이해안될 때 '이렇게 쉬운 통계학' (0) | 2023.05.20 |
적절한 머신러닝 알고리즘을 선택하는 방법 (0) | 2023.05.18 |
[머신러닝] 더미 변수(Dummy Variable) 원핫 인코딩(One-Hot Encoding) (0) | 2023.05.18 |
[인공지능] LightGBM 알고리즘의 이해 (0) | 2023.05.17 |