태지쌤

로봇 & 코딩교육 No.1 크리에이터

Data Science

PCA에서 변수 선택과 변수 추출 차이점

태지쌤 2024. 12. 3. 12:15
반응형

https://link.coupang.com/a/b3a8pW

 

Apple 2024 맥북 프로 14 M4 - 노트북 | 쿠팡

쿠팡에서 0.0 구매하고 더 많은 혜택을 받으세요! 지금 할인중인 다른 0 제품도 바로 쿠팡에서 확인할 수 있습니다.

www.coupang.com

 

안녕하세요! 오늘은 PCA(주성분 분석)에서 변수 선택과 변수 추출의 차이점에 대해 알아보겠습니다. 데이터 분석을 하다 보면 변수 선택과 변수 추출이라는 용어를 자주 접하게 되는데요, 이 두 개념은 비슷해 보이지만 실제로는 매우 다른 의미를 가지고 있습니다. 그럼 하나씩 살펴보도록 하겠습니다.

PCA의 기본 개념

PCA는 고차원 데이터를 저차원으로 변환하는 기법으로, 데이터의 분산을 최대한 보존하면서 차원을 축소하는 방법입니다. 이 과정에서 변수 선택과 변수 추출이 중요한 역할을 하게 됩니다. PCA는 데이터의 구조를 이해하고, 시각화하며, 노이즈를 줄이는 데 도움을 줍니다.

변수 선택(Feature Selection) 정의

변수 선택은 주어진 데이터에서 가장 중요한 변수들만을 선택하는 과정입니다. 즉, 전체 변수 중에서 분석 목적에 맞는 일부 변수만을 선택하여 사용합니다. 이 방법은 데이터의 해석을 용이하게 하고, 모델의 성능을 향상시키는 데 기여합니다. 예를 들어, 특정 질병 예측 모델을 만들 때, 관련성이 높은 몇 가지 변수만을 선택하여 모델을 구축할 수 있습니다.

변수 추출(Feature Extraction) 정의

반면, 변수 추출은 기존의 변수들을 조합하여 새로운 변수를 생성하는 과정입니다. 이 과정에서는 원래의 변수들이 결합되어 새로운 특성이 만들어지며, 이 새로운 변수는 원래의 데이터에서 중요한 정보를 담고 있습니다. PCA는 대표적인 변수 추출 기법으로, 원래의 변수들을 선형 결합하여 주성분을 생성합니다.

변수 선택과 변수 추출의 차이점

변수 선택과 변수 추출의 가장 큰 차이점은 데이터의 처리 방식에 있습니다. 변수 선택은 원래의 변수 중 일부를 선택하는 반면, 변수 추출은 원래의 변수를 조합하여 새로운 변수를 생성합니다.

이미지 출처

위 이미지에서 보듯이, 변수 선택은 특정 변수만을 강조하는 반면, 변수 추출은 새로운 변수를 만들어내는 과정을 보여줍니다.

PCA에서의 변수 선택과 추출의 역할

PCA에서는 변수 추출이 주로 사용됩니다. PCA는 데이터의 분산을 최대한 보존하면서 차원을 축소하기 위해 원래의 변수들을 조합하여 주성분을 생성합니다. 이 과정에서 각 주성분은 원래 변수들의 선형 결합으로 표현되며, 데이터의 구조를 잘 나타내는 새로운 변수로 작용합니다.

PCA의 단계별 과정

PCA의 과정은 다음과 같습니다. 첫째, 고차원 데이터를 중심화합니다. 둘째, 공분산 행렬을 계산합니다. 셋째, 고유값과 고유벡터를 추출합니다. 넷째, 가장 큰 고유값에 해당하는 고유벡터를 선택하여 데이터 포인트를 이 고유벡터에 투영합니다. 마지막으로, 저차원 데이터로 시각화합니다.

 

이미지 출처

실제 사례 및 활용

PCA는 다양한 분야에서 활용됩니다. 예를 들어, 이미지 처리, 유전자 데이터 분석, 금융 데이터 분석 등에서 차원 축소를 통해 데이터의 구조를 이해하고, 시각화하는 데 유용합니다. 또한, 머신러닝 모델의 성능을 향상시키기 위해 데이터 전처리 과정에서 자주 사용됩니다.

이미지 출처

마무리 및 참고 자료

변수 선택과 변수 추출은 데이터 분석에서 매우 중요한 개념입니다. PCA를 통해 이 두 개념의 차이를 이해하고, 실제 데이터 분석에 적용해보는 것이 중요합니다. 더 자세한 내용은 아래의 참고 자료를 통해 확인해보시기 바랍니다.

이상으로 PCA에서 변수 선택과 변수 추출의 차이점에 대해 알아보았습니다.

태그

#PCA #주성분분석 #변수선택 #변수추출 #데이터분석 #차원축소 #머신러닝 #통계학

이런 자료를 참고 했어요.

[1] 티스토리 - 19. 차원 축소 및 주성분 분석(PCA) - Shiwon Kim - 티스토리 (https://cool-kim.tistory.com/58)

[2] 티스토리 - Feature Selection Feature Extraction 차원축소 PCA LDA t ... (https://seeyapangpang.tistory.com/26)

[3] 티스토리 - PCA (Principal Component Analysis) - Dive into Data Science (https://dive-into-ds.tistory.com/3)

[4] 티스토리 - [PCA]Principal Components Analysis 주성분분석 - JoJo's Blog (https://wkddmswh99.tistory.com/11)

반응형