LightGBM은 경사 부스팅(Gradient Boosting) 알고리즘 중 하나로, 효율적이고 빠른 학습과 예측 성능을 제공하는 알고리즘입니다. LightGBM은 Microsoft에서 개발한 알고리즘으로, 대용량 데이터셋에서도 뛰어난 성능을 발휘하며, 특히 특성이 많은 데이터에 잘 적용됩니다.
LightGBM의 주요 특징은 다음과 같습니다:
1. Leaf-Wise 트리 분할: LightGBM은 트리 분할을 Leaf-Wise 방식으로 수행합니다. 일반적인 알고리즘은 Level-Wise 분할을 사용하는데, 이는 모든 리프 노드의 손실을 계산하여 분할을 결정합니다. 하지만 LightGBM은 가장 손실이 큰 리프 노드부터 시작하여 분할을 수행하므로, 빠른 학습과 더 적은 메모리 사용량을 가능하게 합니다.
2. 특성 중요도 계산: LightGBM은 분할에 기여한 특성의 중요도를 계산할 수 있습니다. 이를 통해 데이터셋에서 어떤 특성이 예측에 가장 영향력이 큰지 파악할 수 있습니다.
3. 범주형 변수 지원: LightGBM은 범주형 변수를 직접 처리할 수 있는 기능을 제공합니다. 범주형 변수를 정수로 인코딩하지 않고도 바로 사용할 수 있어 편리합니다.
4. 병렬 학습: LightGBM은 다중 CPU 코어를 활용하여 학습을 병렬화할 수 있습니다. 이를 통해 빠른 학습 시간을 달성할 수 있습니다.
5. 자동 조기 종료: LightGBM은 자동 조기 종료 기능을 제공합니다. 일정한 성능 향상이 없을 때 학습을 일찍 종료하여 과적합을 방지하고 학습 시간을 단축시킬 수 있습니다.
LightGBM은 데이터 분석과 예측 모델링에서 널리 사용되며, 특히 구조화된 테이블 데이터와 고차원의 특성을 가진 데이터에서 뛰어난 성능을 발휘합니다.
LightGBM은 빠르고 정확한 기계 학습 알고리즘으로, 분류 및 회귀 문제에 자주 사용됩니다. 의사 결정 트리의 앙상블인 그라디언트 부스팅 알고리즘을 기반으로 합니다.
LightGBM은 기존의 그라디언트 부스팅 알고리즘보다 빠르고 정확하도록 설계되었습니다. 이를 위해 다음과 같은 여러 가지 기술을 사용합니다.
- 리프 중심 분할: 이 기술은 각 단계에서 가장 큰 손실 감소를 제공하는 리프 노드를 분할합니다. 이를 통해 트리의 깊이를 줄이고 계산 속도를 높일 수 있습니다.
- 셔플 데이터: 이 기술은 각 단계에서 데이터를 셔플합니다. 이를 통해 트리가 특정 데이터 포인트에 과적합되는 것을 방지할 수 있습니다.
- 병렬 학습: 이 기술은 여러 CPU 코어를 사용하여 모델을 학습할 수 있습니다. 이를 통해 학습 시간을 크게 줄일 수 있습니다.
LightGBM은 분류 및 회귀 문제에 자주 사용되는 강력한 기계 학습 알고리즘입니다. 빠르고 정확하며 대규모 데이터 세트에 사용할 수 있습니다.

'Data Science' 카테고리의 다른 글
적절한 머신러닝 알고리즘을 선택하는 방법 (0) | 2023.05.18 |
---|---|
[머신러닝] 더미 변수(Dummy Variable) 원핫 인코딩(One-Hot Encoding) (0) | 2023.05.18 |
처음만나는 AI수학 with 파이썬 (1) | 2023.05.06 |
[통계학] 베이즈의 법칙 Bayes' theorem/Law/Rule (0) | 2023.05.05 |
[통계학] 순열과 조합의 개념 차이점 비교 (0) | 2023.05.04 |