본문 바로가기
반응형

앙상블3

[ML][Ensemble]XGBoost(Extreme Gradient Boost) XGBoost(Extreme Gradient Boost)XGBoost는 기존 GBM 알고리즘의 성능과 속도를 향상시킨 알고리즘이다기존 GBM은 학습 데이터에 대한 Residual을 계속 줄이는 방향으로 학습하기 때문에 Overfitting이 되기 쉽다따라서 정규화 항을 Loss Function에 추가함으로써 Overfitting을 방지한다또한 Split Finding 알고리즘을 통해 연산의 효율성을 높혔다정규화$\Omega(f) = \gamma T + \frac{1}{2}\lambda ||c||^2$ (T : Terminal Node의 수, c : 각 노드의 가중치)여기서 $\gamma,\; \lambda$는 Hyper Parameter이다Split Finding기존에는 모든 Feature를 Split .. 2024. 7. 4.
[ML][Ensemble] Random Forest(랜덤 포레스트), OOB(Out Of Bag) Random Forest를 공부하기 전 앞서 봤던 Bagging에 대해 더 알아보고 시작해야합니다Bagging은 Bootstrap을 통해 B개의 데이터셋을 만든다고 설명했었습니다여기서 원래 n개의 데이터가 존재하는 데이터 셋 $X$에서 j번째 데이터 $x_j$에 집중해서 보고자합니다1. $X$에서 임의의 데이터 추출 => 첫번째 Bootstrap 데이터 셋의 첫번째 Observation여기서 $x_j$가 뽑히지 않을 확률 : $1 - \frac{1}{n}$  2. $X$에서 임의의 데이터 복원 추출 => 첫번째 Bootstrap 데이터 셋의 두 번째 Observation여기서 $x_j$가 뽑히지 않을 확률 : $1 - \frac{1}{n}$  이 과정을 n번 반복하여 첫번째 Bootstrap 데이터 셋의.. 2024. 6. 25.
[ML][Ensemble] Ensemble Learning(앙상블 학습), Bagging(배깅),Boosting(부스팅) Ensemble Learning(앙상블 학습)Ensemble Learning이란 여러 개의 모델을 학습시켜, 다양한 예측 결과를 이용하는 방법론입니다보통 Decision Tree에서 자주 사용되며, 크게 Bagging, Boosting이 있습니다Bagging(배깅, Bootstrap Aggregation)먼저 Bagging에 대해 알아보도록 하겠습니다Bagging은 분산이 $\sigma^2$인 독립적인 Observation($Z_1, Z_2, \cdots, Z_n$)이 있을 때, Observation의 평균 $\bar{Z}$의 분산은 $\frac{\sigma^2}{n}$이 되는 것을 이용하여, 여러 Observation을 평균을 내면 분산이 줄어드는 점을 이용한 방법입니다 즉, Bootstrap을 이용해.. 2024. 6. 25.
반응형