본문 바로가기
반응형

전체 글44

[ML][Ensemble]Gradient Boosting Machine(GBM) Gradient Boosting Machine(GBM)Residual(잔차, $y_i - \hat{f}(x_i)$)($\approx$ Negative Gradient)를 이용하여 이전 모델의 약점을 보완하는 새로운 모형을 순차적으로 Fitting한 뒤 이들을 선형결합하여 얻어진 모델을 생성하는 지도학습 알고리즘 $$ \begin{aligned} y_1 &= F_{prev}(x_1) + h(x_1)\\ y_2 &= F_{prev}(x_2) + h(x_2)\\ &\qquad\qquad \vdots \\ y_n &= F_{prev}(x_n) + h(x_n)\\ \Rightarrow &F_{new}(x) = F_{prev}(x) + l \cdot h(x) \end{aligned} $$위의 식과 그림처럼 이전 모.. 2024. 7. 2.
[ML][Ensemble] AdaBoost(아다부스트, Adaptive Boosting) AdaBoost(아다부스트, Adaptive Boosting)Adaboost는 최초의 Boosting 알고리즘입니다이전 Decision Tree가 잘못 예측한 데이터에 큰 가중치를 부여해, 다음 Decision Tree가 더 집중할 수 있도록 순차적으로 학습하는 방법입니다Decision Tree로는 Stump 구조를 사용합니다(여기서 Stump 구조란 하나의 Split 만을 가진 가장 간단한 형태의 Decition Tree입니다) 세부적으로 설명하자면 B개의 Decision Tree 별로 계산된 모델 가중치 ($c_b$)를 합산하여 최종 모델을 생성합니다AdaBoost의 알고리즘 설명 전 AdaBoost의 Loss Function에서 사용되는 지수 손실에 대해서 간략히 설명하겠습니다※ 지수 손실 지수 손.. 2024. 6. 26.
[ML][Ensemble] Random Forest(랜덤 포레스트), OOB(Out Of Bag) Random Forest를 공부하기 전 앞서 봤던 Bagging에 대해 더 알아보고 시작해야합니다Bagging은 Bootstrap을 통해 B개의 데이터셋을 만든다고 설명했었습니다여기서 원래 n개의 데이터가 존재하는 데이터 셋 $X$에서 j번째 데이터 $x_j$에 집중해서 보고자합니다1. $X$에서 임의의 데이터 추출 => 첫번째 Bootstrap 데이터 셋의 첫번째 Observation여기서 $x_j$가 뽑히지 않을 확률 : $1 - \frac{1}{n}$  2. $X$에서 임의의 데이터 복원 추출 => 첫번째 Bootstrap 데이터 셋의 두 번째 Observation여기서 $x_j$가 뽑히지 않을 확률 : $1 - \frac{1}{n}$  이 과정을 n번 반복하여 첫번째 Bootstrap 데이터 셋의.. 2024. 6. 25.
[ML][Ensemble] Ensemble Learning(앙상블 학습), Bagging(배깅),Boosting(부스팅) Ensemble Learning(앙상블 학습)Ensemble Learning이란 여러 개의 모델을 학습시켜, 다양한 예측 결과를 이용하는 방법론입니다보통 Decision Tree에서 자주 사용되며, 크게 Bagging, Boosting이 있습니다Bagging(배깅, Bootstrap Aggregation)먼저 Bagging에 대해 알아보도록 하겠습니다Bagging은 분산이 $\sigma^2$인 독립적인 Observation($Z_1, Z_2, \cdots, Z_n$)이 있을 때, Observation의 평균 $\bar{Z}$의 분산은 $\frac{\sigma^2}{n}$이 되는 것을 이용하여, 여러 Observation을 평균을 내면 분산이 줄어드는 점을 이용한 방법입니다 즉, Bootstrap을 이용해.. 2024. 6. 25.
[ML][Ensemble]Decision Tree(결정트리) Machine Learning 주제에서 Ensemble 학습에 들어가기 전에 Ensemble 학습의 대표적인 모델인 Random Forest가 Decision Tree 기반으로 되어있기 때문에 Decision Tree에 대해 공부하고 Ensemble 학습에 대해서 공부해보도록 하겠습니다 Decision Tree(결정트리)Decision Tree란 의사 결정 규칙과 그에 따른 결과들을 Tree 구조로 나타낸 모델입니다예측을 위해 여러 Region으로 Segmenting 하는 과정을 거치게 되고 분류 및 회귀에서 모두 사용 가능합니다 아래의 그림에서 "Years  Root Node : Tree 최상단에 위치하며, 데이터 분류의 시작점Internal Node : 하나의 Feature에 대한 조건으로 분할되는 .. 2024. 6. 24.
[Recommendattion System]Consine Similarity(코사인 유사도), Jaccard Similarity(자카드 유사도), Euclidean Distance(유클리디언 거리), Pearson Correlation Coefficient(피어슨 상관계수) Similarity(유사도)두 Item 간의 비슷한 정도를 측정하는 개념입니다Recommendation System에서 User나 Item 간의 관련성을 평가하는데 사용합니다Consine Similarity(코사인 유사도)벡터 간 코사인 각도를 이용하여 유사도를 측정합니다두 벡터가 이루는 각이 작을수록(Cosine 값이 1에 가까울수록) 두 벡터는 유사하다고 판단합니다주로 텍스트 데이터나 문서의 유사성을 측정할 때 사용합니다$$Cosine\; Similarity\;= \frac{A \cdot B}{||A|| \cdot ||B||} = \frac{\sum \limits_{i=1}{n} A_i \times B_i}{\sqrt{ \sum \limits_{i=1}^{n} {A_i}^2} \times \sqrt{.. 2024. 6. 20.
[Recommendation System] Content Based Recommendation System(컨텐츠 기반 추천 시스템) Content Based Recommendation System(컨텐츠 기반 추천 시스템)Content Based Recommendation System, Content Based Filtering 이라고도 부르는 컨텐츠 기반 추천 시스템은 Item에 대한 세부 정보를 토대로 User가 과거에 소비했던 Content와 유사한 Content를 추천하는 시스템입니다이전에 높게 평가했던 Content와 가장 유사한 Content를 추천합니다 분석 과정이미지, 자연어, 태그 등 데이터에서 해당 Item을 설명할 수 있는 특징을 Vectorization(벡터화)이미지 : CNN, ResNet, VGG 등등자연어 : TF - IDF, Word2Vec, BERT 등등Vectorization 후 벡터 간의 Simila.. 2024. 6. 20.
[Recommendation System] 추천 시스템의 기본 Recommendation System IntroduceRecommendation System이란 사용자가 관심을 가질만한 Content를 추천하는 것으로 사용자의 선호도 및 과거 행동을 토대로 적합한 Content를 제공하는 System을 의미합니다 추천 시스템에서의 Deep Learning 활용Deep Learning은 Machine Learning과 달리 대용량 콘텐츠를 가공없이 Input으로 사용할 수 있어 Feature Extraction(특징추출)에 유리또한, 선형모델과 달리 비선형성 덕분에 User-Content 간에 복잡한 관계 추출 가능ML에 비해 많은 데이터를 학습시켰을 때 학습 데이터와 거리가 먼 데이터에 대해 유연한 처리가 가능추천 시스템의 목표Prediction version of.. 2024. 6. 20.
[ML][Classification]Linear Discriminant Analysis(LDA, 선형판별분석), Quadratic Discriminant Analysis(QDA) Linear Discriminant Analaysis(LDA, 선형판별분석)LDA는 주로 데이터 분포를 학습하여 새로운 데이터의 클래스를 예측하는 것과 데이터의 차원을 축소하는 두 가지 목적을 위해 사용됩니다핵심 아이디어는 각 클래스 간의 분산을 최대화하면서, 클래스 내의 분산을 최소화하는 방향으로 데이터를 변환하는 것입니다 LDA의 기본가정1. Density Function이 Gaussian Distribution을 따른다$${\large f_k(x) = \frac{1}{\sqrt{2\pi} \sigma_k} e^{-\frac{1}{2} (\frac{x - \mu_k}{\sigma_k})^2}}$$2. 각 클래스의 분산은 동일하다$${\large \sigma_k = \sigma} \; for\;all\.. 2024. 6. 19.
반응형