Apple 2024 맥북 프로 14 M4 - 노트북 | 쿠팡
쿠팡에서 0.0 구매하고 더 많은 혜택을 받으세요! 지금 할인중인 다른 0 제품도 바로 쿠팡에서 확인할 수 있습니다.
www.coupang.com
머신러닝에서의 데이터 전처리: 표준화, 정규화, RobustScaler
![](https://blog.kakaocdn.net/dn/CE2Ky/btsLdyJZyyq/E0nUuOCaM7Sp6pnWF7TTgk/img.png)
데이터 전처리는 머신러닝 모델의 성능을 크게 향상시킬 수 있는 중요한 단계입니다. 오늘은 데이터 스케일링의 세 가지 주요 방법인 표준화, 정규화, 그리고 RobustScaler에 대해 알아보겠습니다.
1. 표준화 (Standardization)
표준화는 데이터의 평균을 0, 표준편차를 1로 변환하는 과정입니다.
- 수식: (x - μ) / σ
- 특징: 이상치에 민감할 수 있음
- 사용 시기: 정규분포를 따르는 데이터에 적합
2. 정규화 (Normalization)
정규화는 데이터를 특정 범위(주로 0과 1 사이)로 스케일링하는 방법입니다.
- 수식: (x - min(x)) / (max(x) - min(x))
- 특징: 이상치에 매우 민감
- 사용 시기: 데이터의 분포가 정규분포가 아닐 때 유용
![](https://blog.kakaocdn.net/dn/nxBZY/btsLbQeoIEp/12Dvlpb81hryFAzfToqTTk/img.png)
3. RobustScaler
RobustScaler는 중앙값(median)과 사분위수(quartiles)를 사용하여 이상치의 영향을 최소화합니다.
- 수식: (x - median(x)) / (Q3(x) - Q1(x))
- 특징: 이상치에 강건함
- 사용 시기: 이상치가 많은 데이터셋에 적합
결론
데이터의 특성과 모델의 요구사항에 따라 적절한 스케일링 방법을 선택하는 것이 중요합니다. 표준화는 정규분포 데이터에, 정규화는 일정 범위로의 변환이 필요할 때, RobustScaler는 이상치가 많은 데이터에 효과적입니다. 실제 적용 시에는 여러 방법을 실험해보고 최적의 결과를 도출하는 것이 좋습니다.
'Data Science' 카테고리의 다른 글
Pictoblox 통해 초등학생 대상 chatGPT 사용하기 (1) | 2025.02.05 |
---|---|
슬라이딩 윈도우 데이터 가공: 시계열 데이터 분석의 핵심 기법 (1) | 2024.12.23 |
PCA에서 변수 선택과 변수 추출 차이점 (0) | 2024.12.03 |
K-means 최적의 k값 찾는 엘보우, 실루엣 기법 (0) | 2024.12.03 |
상관계수와 독립성 (0) | 2024.11.29 |