데이터 과학 분야에서 왜도(skewness)와 첨도(kurtosis)는 데이터의 분포를 설명하는 두 가지 중요한 개념입니다.
왜도는 데이터 분포의 비대칭성을 나타내는 지표입니다. 데이터 분포가 왼쪽으로 치우쳐져 있으면 왜도 값은 음수가 되고, 오른쪽으로 치우쳐져 있으면 왜도 값은 양수가 됩니다. 데이터 분포가 좌우 대칭인 경우에는 왜도 값은 0에 가까워집니다. 왜도는 분포의 비대칭성을 측정하기 때문에, 데이터의 중심성과 꼬리의 길이를 파악하는 데에 도움이 됩니다. 예를 들어, 주식 시장의 수익률 데이터 분포가 왼쪽으로 치우쳐져 있다면, 이는 주식 시장에서 음수의 수익이 더 자주 발생한다는 것을 의미할 수 있습니다.
첨도는 데이터 분포의 뾰족한 정도를 나타내는 지표입니다. 첨도 값이 0보다 크면 데이터 분포는 정규분포보다 더 뾰족한 모양을 갖게 되며, 이를 급첨된 분포라고 합니다. 반대로 첨도 값이 0보다 작으면 데이터 분포는 보다 완만한 모양을 갖게 되며, 이를 평평한 분포라고 합니다. 첨도는 데이터 분포의 꼬리 부분에 대한 정보를 제공하며, 데이터의 이상치 여부나 예외적인 사건이 발생할 가능성을 추론하는 데에 도움이 됩니다. 예를 들어, 주식 시장의 수익률 데이터 분포가 급첨된 분포를 갖는다면, 주식 시장에서 극단적인 수익률 사건이 발생할 가능성이 높다고 해석할 수 있습니다.
따라서, 왜도와 첨도는 데이터 과학 분야에서 데이터의 분포를 더 잘 이해하고 파악하기 위해 사용되는 지표입니다. 이러한 지표를 통해 데이터의 특성을 파악하고 분석하는 과정에서 중요한 통계적 도구로 활용됩니다.
'Data Science' 카테고리의 다른 글
[학교 선생님을 위한 파이썬교재] 나는 파이썬으로 머신러닝한다 (0) | 2023.08.09 |
---|---|
[데이터탐색] 히트맵 중복 영역 제거 코드 heatmap vs 클러스터맵 clustermap (1) | 2023.06.09 |
[용인 명지대 맛집] 호접몽 맛있는데 음식에서 ㅇㅇ이 나왔어요 (0) | 2023.05.25 |
[인공지능] 지도학습 분류 vs 비지도학습 군집화 비교 (0) | 2023.05.23 |
[책리뷰] 전공책 이해안될 때 '이렇게 쉬운 통계학' (0) | 2023.05.20 |