
https://link.coupang.com/a/cmraJ0
Apple 2024 맥북 프로 14 M4 - 노트북 | 쿠팡
현재 별점 4.9점, 리뷰 337개를 가진 Apple 2024 맥북 프로 14 M4! 지금 쿠팡에서 더 저렴하고 다양한 노트북 제품들을 확인해보세요.
www.coupang.com

선형 회귀분석에서 수정된 결정계수가 생겨난 이유는?
안녕하세요! 데이터 분석과 IT에 관심이 많은 여러분을 위해
오늘은 선형 회귀분석에서 자주 등장하는 개념인
수정된 결정계수(Adjusted R²)에 대해 알아보겠습니다.
"수정된 결정계수가 왜 필요할까?"라는 질문에 대한 답을 일반인이 이해하기 쉽게 풀어볼게요!
1. 결정계수(R²)란 무엇인가요?
먼저, 결정계수(R²)부터 간단히 짚고 넘어가겠습니다.
결정계수는 선형 회귀분석에서 모델의 성능을 평가하는 지표로,
"독립변수가 종속변수를 얼마나 잘 설명하는가?"를 나타냅니다.
R²의 특징
- 값의 범위: 0 ~ 1 사이
- 0: 독립변수가 종속변수를 전혀 설명하지 못한다.
- 1: 독립변수가 종속변수를 완벽하게 설명한다.
- R²가 클수록 모델이 데이터를 잘 설명한다고 볼 수 있습니다.
예시
만약 우리가 집값을 예측하는 모델을 만들었다고 가정해봅시다.
- 독립변수: 집의 크기, 방 개수, 위치 등
- 종속변수: 집값
결정계수가 0.85라면, 이 모델이 집값 변동의 85%를 설명한다는 의미입니다.

2. 그런데 R²에는 문제가 있습니다!
R²는 유용한 지표지만, 한 가지 큰 단점이 있습니다.
바로 독립변수를 추가하면 무조건 값이 커진다는 점입니다.
왜 문제가 될까요?
독립변수를 추가하면 모델이 더 복잡해지면서 R² 값은 항상 증가합니다.
하지만 추가된 변수가 실제로 종속변수를 잘 설명하지 못하더라도 R²는 올라갑니다.
즉, 불필요한 변수를 추가해도 마치 모델이 좋아진 것처럼 보일 수 있다는 거죠.
예시
집값 예측 모델에 "오늘의 날씨"라는 독립변수를 추가했다고 가정합시다.
날씨가 집값과 아무 관계가 없더라도 R² 값은 증가합니다.
이런 경우, 모델의 성능이 실제로 좋아졌다고 보기 어렵겠죠?
3. 그래서 등장한 것이 수정된 결정계수(Adjusted R²)입니다!
수정된 결정계수란?
수정된 결정계수는 R² 값을 보완하기 위해 만들어졌습니다.
독립변수를 추가했을 때, 그 변수가 실제로 유용하지 않다면 수정된 결정계수 값은 오히려 감소할 수 있습니다.
어떻게 계산되나요?
수정된 결정계수는 R² 값을 조정하여 독립변수의 개수를 고려합니다.
즉, 독립변수가 많아질수록 페널티를 부여해 불필요한 변수 추가를 방지합니다.
4. 수정된 결정계수가 필요한 이유
핵심 이유
1. 모델 과적합 방지
독립변수를 무작위로 추가해서 R²만 높이는 것을 막아줍니다.
2. 모델의 진짜 성능 평가
독립변수가 종속변수를 실제로 잘 설명하는지 확인할 수 있습니다.
예시
집값 예측 모델에 "오늘의 날씨"라는 변수를 추가했다고 다시 생각해봅시다.
- R²: 날씨를 추가했으니 값이 증가 (겉보기에 모델이 좋아진 것처럼 보임).
- 수정된 결정계수: 날씨가 집값을 설명하지 못하므로 값이 감소 (모델 성능 악화).
결국 수정된 결정계수를 사용하면 불필요한 변수 추가로 인한 착각을 방지할 수 있습니다!
5. 수정된 결정계수를 언제 사용해야 할까?
사용해야 할 때
- 독립변수가 많아질 가능성이 있는 복잡한 모델을 평가할 때.
- 데이터셋에 여러 후보 변수가 포함되어 있을 때.
사용하지 않아도 괜찮을 때
- 단순한 모델(독립변수가 적음)을 사용할 때는 일반적인 R²만으로 충분할 수도 있습니다.
마무리
결론적으로, 수정된 결정계수(Adjusted R²)는 우리가 만든 모델이
정말로 데이터를 잘 설명하는지 확인하기 위한 중요한 도구입니다.
특히 불필요한 변수들이 포함되지 않도록 도와주는 역할을 하죠.
여러분도 데이터를 분석할 때, 단순히 R²만 보는 것이 아니라
수정된 결정계수를 함께 살펴보세요!
더 정확하고 신뢰성 있는 분석 결과를 얻을 수 있을 겁니다 😊
궁금한 점이나 더 알고 싶은 내용이 있다면 댓글로 남겨주세요!
'Data Science' 카테고리의 다른 글
ADF 정상성 검증 기법(Augmented Dickey-Fuller Test) (0) | 2025.04.03 |
---|---|
상관관계 분석을 위한 3가지 방법: 스피어만, 피어슨, 켄달 (1) | 2025.04.02 |
Pictoblox 통해 초등학생 대상 chatGPT 사용하기 (1) | 2025.02.05 |
슬라이딩 윈도우 데이터 가공: 시계열 데이터 분석의 핵심 기법 (1) | 2024.12.23 |
머신러닝에서의 데이터 전처리: 표준화, 정규화, RobustScaler (0) | 2024.12.10 |