의사결정트리Decision Tree는 데이터 정규화/표준화가 필요 없는 이유

Data Science

의사결정트리Decision Tree는 데이터 정규화/표준화가 필요 없는 이유

태지쌤 2025. 4. 4. 12:10

https://link.coupang.com/a/cmMQfe

Apple 정품 2024 아이패드 프로 11 M4칩 스탠다드 글래스 - 태블릿PC | 쿠팡

현재 별점 4.8점, 리뷰 1190개를 가진 Apple 정품 2024 아이패드 프로 11 M4칩 스탠다드 글래스! 지금 쿠팡에서 더 저렴하고 다양한 태블릿PC 제품들을 확인해보세요.

www.coupang.com

나무는 키(Scale)를 신경 쓰지 않아요!🤔

왜 의사결정 트리는 데이터 정규화/표준화가 필요 없을까?

안녕하세요!

오늘은 머신러닝 모델 중 많은 사랑을 받는 '의사결정 트리(Decision Tree)'

알고리즘의 흥미로운 특징에 대해 이야기해볼까 합니다.

데이터 분석 프로젝트를 시작할 때, 우리는 종종 '데이터 전처리(Data Preprocessing)'라는

중요한 단계를 거칩니다.

특히 숫자 데이터를 다룰 때 '정규화(Normalization)'나 '표준화(Standardization)' 같은

스케일링 기법을 사용하여 데이터의 단위를 맞추거나 분포를 조정하곤 하죠.

키(cm), 몸무게(kg), 연봉(원)처럼 단위와 범위가 제각각인 데이터를 그대로 사용하면

특정 변수가 모델 학습에 지나치게 큰 영향을 미치는 것을 방지하기 위해서입니다.

그런데 신기하게도 의사결정 트리 계열의 알고리즘(랜덤 포레스트, 그래디언트 부스팅 등 포함)은 이러한 정규화나 표준화 과정을 거의 필요로 하지 않습니다.

마치 큰 키의 나무가 주변 작은 풀들의 키(scale) 차이를 크게 신경 쓰지 않는 것처럼 말이죠.

왜 그럴까요? 오늘 그 비밀을 파헤쳐 보겠습니다!

🤷‍♀️ 잠깐! 정규화/표준화가 뭐였더라? 왜 필요했지?

본론에 들어가기 전에, 왜 다른 많은 알고리즘들이 데이터 스케일링을 필요로 하는지 간단히 짚고 넘어가겠습니다.

거리 기반 알고리즘 (예: k-최근접 이웃(KNN), 서포트 벡터 머신(SVM), 군집화): 이 알고리즘들은 데이터 포인트 간의 '거리'를 계산하여 유사성을 판단합니다. 만약 키(150~190cm)와 연봉(3000만~1억 원) 데이터를 그대로 사용하면, 숫자 범위가 훨씬 큰 연봉 데이터가 거리 계산을 거의 '지배'하게 됩니다. 키 차이는 거의 무시되는 거죠. 마치 자로 잰 거리와 빛의 속도로 잰 거리를 단순 비교하는 것과 같습니다. 스케일링은 이 변수들을 공평한 출발선에 세워줍니다.
경사 하강법 기반 알고리즘 (예: 선형 회귀, 로지스틱 회귀, 신경망): 이 알고리즘들은 비용 함수(오차)를 최소화하는 방향으로 모델 파라미터를 조금씩 업데이트합니다. 이때 각 변수(feature)의 스케일이 크게 다르면, 학습 과정이 불안정해지거나 특정 가중치만 너무 크게 업데이트되어 최적점을 찾기 어려워지는 문제가 발생할 수 있습니다. 스케일링은 학습 과정을 더 안정적이고 빠르게 만들어줍니다.

🌳 의사결정 트리는 어떻게 동작하길래 스케일링이 필요 없을까?

자, 이제 오늘의 주인공 의사결정 트리입니다.

이 알고리즘의 핵심 작동 방식은 데이터를 특정 '기준(threshold)'에 따라

나누는 과정을 반복하는 것입니다.

마치 스무고개 놀이처럼 질문을 던져가며 정답 범위를 좁혀나가는 것과 비슷합니다.

예를 들어, "나이가 30세 초과인가?", "연봉이 5000만 원 이상인가?" 와 같은

질문(분기 조건)을 통해 데이터를 계속해서 부분집합으로 나눕니다.

중요한 것은 이 과정에서 각 변수의 절대적인 크기나 다른 변수와의 상대적인 크기가 아니라,

오직 해당 변수 내에서의 값과 설정된 '분기 기준값(threshold)'의

대소 관계만 사용한다는 점입니다.

예시를 들어볼까요?

키(cm) 데이터 [160, 175, 185]가 있고, 의사결정 트리가 최적의 분기점으로 키 > 170 이라는 규칙을 찾았다고 가정해 봅시다.

이제 이 데이터를 미터(m) 단위로 바꿔서 [1.6, 1.75, 1.85]로 만들고 다시 트리를 학습시킨다면 어떻게 될까요?

트리는 아마도 키 > 1.7 이라는 규칙을 찾을 것입니다.

보시다시피, 단위(스케일)가 cm에서 m으로 바뀌었지만,

어떤 데이터가 기준점보다 큰지 작은지에 대한 결과는 전혀 변하지 않습니다.

175cm와 185cm는 여전히 기준점보다 크고, 160cm는 여전히 기준점보다 작습니다.

트리는 각 변수를 독립적으로 보고 최적의 분기점만 찾으면 되기 때문에, 다른 변수와의 스케일 차이는 고려 대상이 아닙니다.

즉, 의사결정 트리는 데이터의 순서(order)나 순위(rank) 정보에 기반하여 분기점을 찾는 것이지, 값 자체의 크기나 데이터 간의 거리에 직접적으로 의존하지 않습니다.

따라서 정규화나 표준화를 통해 데이터의 스케일을 조정해주어도 트리의 구조나 예측 결과에 거의 영향을 미치지 않는 것입니다.

✨ 결론: 의사결정 트리의 매력 포인트!

데이터 전처리 과정에서 정규화나 표준화 단계를 건너뛸 수 있다는 것은

의사결정 트리 계열 알고리즘의 큰 장점 중 하나입니다.

전처리 시간 단축: 스케일링에 드는 시간과 노력을 절약할 수 있습니다.
해석 용이성 유지: 원본 데이터의 스케일을 그대로 사용하므로, 트리의 분기 조건을 해석하기 더 직관적일 수 있습니다. (예: "키가 170cm보다 크면...")
모델링 과정 단순화: 다른 모델에서 스케일링 때문에 발생하는 잠재적인 문제를 신경 쓰지 않아도 됩니다.

물론, 아주 예외적인 경우나 특정 라이브러리 구현 방식에 따라 미미한 영향이 있을 수도 있지만, 일반적으로 의사결정 트리를 사용할 때는 스케일링 전처리를 필수적으로 고려하지 않아도 괜찮습니다.

데이터의 '크기'보다는 '관계'와 '기준'에 집중하는 의사결정 트리의

독특한 작동 방식, 정말 흥미롭지 않나요?

앞으로 데이터 분석 여정에서 의사결정 트리를 만나게 된다면,

오늘 나눈 이야기를 기억해주세요!

혹시 궁금한 점이나 다른 의견이 있다면 언제든지 댓글로 남겨주세요!

다음에 더 유익하고 재미있는 데이터 이야기로 찾아뵙겠습니다.

저작자표시 비영리 변경금지 (새창열림)

'Data Science' 카테고리의 다른 글

[생성형 AI의 편향성] AI 면접관이 "이공계 여성은 모두 탈락!" 시킨다고요? (0)	2025.05.14
랜덤 포레스트의 랜덤 노드 최적화(Randomized Node Optimization) (0)	2025.04.30
자동차 스티커 제거하는 방법 (1)	2025.04.03
하이퍼파라미터 튜닝(Hyperparameter Tuning)이란? 왜 필요한 걸까? (0)	2025.04.03
ADF 정상성 검증 기법(Augmented Dickey-Fuller Test) (0)	2025.04.03

현재글의사결정트리Decision Tree는 데이터 정규화/표준화가 필요 없는 이유

태지쌤의 로봇/코딩교육 연구소

로보빌더, 코딩, 초등, 로보티즈, 코딩교육, 파이썬, 오산맛집, 로봇, 로보로보, 신사동맛집, 과학, eq, 큐보, 로보스톤, 방과후, 프로보, 엔트리, rq, 태지쌤, 동탄맛집,

Today :
Yesterday :