본문 바로가기
반응형

전체 글44

[ML][Time - Series Analysis] ARMA(Auto Regression Moving Average, 자기 회귀 이동 평균) 모델 ARMA(Auto Regression Moving Average, 자기 회귀 이동 평균) 모델이란?AR 모델과 MA 모델을 결합한 형태로, 현재 시점의 데이터가 과거 데이터의 상태(AR 부분)와 과거 오차(MA 부분) 모두에 의존한다고 가정한 모델이다 ARMA 모델 수식$$ {\large Z_{t} = \alpha + \Phi_{1} Z_{t-1} + \Phi_{2} Z_{t-2} + \cdots + \Phi_{p} Z_{t-p} \; + \; \epsilon_{t} + \theta_{1}\epsilon_{t-1} + \theta_{2}\epsilon_{t-2} + \cdots + \theta_{q}\epsilon_{t-q} } $$ AR(Auto Regression) 부분$\alpha + \Phi_{1.. 2024. 8. 25.
[ML][Time - Series Analysis] MA(Moving Aveage) 모델 MA(Moving Aveage) 모델이란?MA 모델은 트렌드(평균 혹은 시계열 그래프에서 y값)가 변화하는 상황에 적합한 회귀모델     MA 모델에서는 "윈도우(Window)"라는 개념을 사용하는데, 시계열을 따라 윈도우 크기만큼 sliding 된다로 하여 이동 평균 모델이라 한다MA 모델 수식$${\large  Z_{t}= \mu + \epsilon_{t} + \theta_{1}\epsilon_{t-1} + \theta_{2}\epsilon_{t-2} + \cdots + \theta_{p}\epsilon_{t-p}}$$ $Z_{t}$ : 현재 시점에서의 시계열 값      $\mu$ : 평균$\epsilon_{t} + \theta_{1}\epsilon_{t-1} + \theta_{2}\epsilon_.. 2024. 8. 25.
[ML][Time - Series Analysis] AR(Auto Regression, 자기 회귀)모델 AR(Auto Regression, 자기 회귀)모델AR 모델은 이전 관측값이 이후 관측값에 영향을 준다는 아이디어에 대한 모델이다즉, 현재 값이 이전 값들의 선형 결합으로 설명된다고 가정합니다수식$${\large Z_t = \alpha + \Phi_1 Z_{t-1} + \Phi_2 Z_{t-z} + \cdots + \Phi_p Z_{t-p}+ \epsilon_t }$$$Z_t$ : 시계열 데이터의 시점 t의 값$\Phi_1, \Phi_2, \cdots, \Phi_p$ : 회귀 계수(자기회귀 계수)$\epsilon_t$ : 평균이 0이고 분산이 일정한 백색 잡음(white noise) $p$ : AR 모델의 차수(order, 이전 시점의 데이터 개수)수식을 통해 알 수 있는건 AR 모델은 과거 p개의 데이.. 2024. 8. 15.
[ML][Time Series Analysis] 시계열 분석 Introduce 시계열 분석(Time - Series Analysis)시계열 분석이란 시간에 따라 변하는 데이터를 사용하여 추이를 분석하고 향후 전망을 예측하는 것입니다 시계열 데이터의 형태는 데이터 변동 유형에 따라 불규칙 변동, 추세 변동, 순환 변동, 계절 변동으로 구분할 수 있습니다불규칙 변동(Irregular Variaiton) : 시계열 자료에서 시간에 따른 규칙적인 움직임과 달리 어떤 규칙성이 없어 예측 불가능 하고 우연적으로 발생하는 변동추세 변동(Trend Variaiton) : 시계열 자료가 갖는 장기적인 변화 추세추세(Trend) : 장기간에 걸쳐 지속적으로 증가/감소하거나 일정한 상태(Stationary)를 유지하려는 현상순환 변동(Cyclical Variaiton) : 대체로 2~3년 정도의 일정.. 2024. 8. 15.
[DL][CNN] CNN(Convolution Neural Network) PyTorch 예제 앞선 글에서 CNN의 기본 개념에 대해 살펴보았습니다 [DL][CNN] Convolution Neural Network(CNN)Convolution Neural Network(CNN) Convolution Neural Network(CNN) 이란 인간의 시신경을 모바하여 만든 Deep Learning 구조이다특히, Convolution 연산을 이용하여 Image의 공간적인 정보를 유지하고, Fully Connected Neural Nself-objectification.tistory.com이번 글에서는 Fashion_MNIST 데이터 셋을 CNN을 통해 분류하는 예제 코드에 대해 공부해보도록 하겠습니다1. 라이브러리 Importimport numpy as npimport pandas as pdimport.. 2024. 8. 15.
[DL][CNN] Convolution Neural Network(CNN) Convolution Neural Network(CNN) Convolution Neural Network(CNN) 이란 인간의 시신경을 모바하여 만든 Deep Learning 구조이다특히, Convolution 연산을 이용하여 Image의 공간적인 정보를 유지하고, Fully Connected Neural Network 대비 연산량을 획기적으로 줄였으며, Image Classification에서 좋은 성능을 보인다 Image Data우선 Image를 정형 데이터화 하는 방법을 생각해보자정형 데이터란 컴퓨터로 식별가능한 형태로 데이터를 변환하는 것을 의미한다.Image는 Pixel 단위로 구성되어 있고 각 Pixel은 RGB 값으로 구성되어있다.즉, 아주 작은 색이 담긴 네모 상자가 여러개 모여 이미지가 .. 2024. 8. 1.
[Recommendation System] Collaborative Filtering(협업 필터링), Memory - Based Colllaborative Filtering Collaborative Filtering(협업 필터링)Collaborative Filtering(협업 필터링)이란 많은 사용자로부터 수집한 구매 패턴이나 평점을 기반으로 하여 다른 사용자에게 추천을 하는 방법입니다기본 가정은 "많은 사용자로부터 얻은 취향 정보를 토대로 나와 비슷한 취향을 가진 사람들이 선호하는 콘텐츠를 나도 좋아할 가능성이 크다"라는 가정을 기반한 Recommendation System입니다 Memory - Based Algorithm(KNN 기반)User 간 또는 Item 간 Similarity 계산 결과를 기반으로 예측이 필요한 새로운 user와 유사한 취향을 가지고 있는 다른 user가 선호하는 Item을 추천하거나, 특정 Item의 평점을 예측해야 하는 경우 다른 유사한 Tag.. 2024. 7. 17.
[ML][Ensembel] LightGBM LightGBMXGBoost와 LightGBM은 Decision Tree 알고리즘 기반의 대표적인 Boosting 앙상블 기법입니다여기서 LightGBM은 시간적 한계를 보완한 알고리즘입니다 Node의 split을 균형 트리 분할(Level - wise Tree Growth) 방식이 아니라 최대 Loss를 가진 Node를 중심으로 계속 분할하는 Leaf 중심 트리 분할 (Leaf-wise Tree Growth)방식을 사용합니다이 방식을 통해 Tree가 깊어지기 위해 소요되는 시간과 메모리를 절약할 수 있습니다 Motivation & IdeaMotivation기존의 Boosting 알고리즘은 B번의 반복 학습 때마다 전체 데이터 셋을 scan하여 모든 Split Point에 대한 Information Ga.. 2024. 7. 11.
[ML][Ensemble]XGBoost(Extreme Gradient Boost) XGBoost(Extreme Gradient Boost)XGBoost는 기존 GBM 알고리즘의 성능과 속도를 향상시킨 알고리즘이다기존 GBM은 학습 데이터에 대한 Residual을 계속 줄이는 방향으로 학습하기 때문에 Overfitting이 되기 쉽다따라서 정규화 항을 Loss Function에 추가함으로써 Overfitting을 방지한다또한 Split Finding 알고리즘을 통해 연산의 효율성을 높혔다정규화$\Omega(f) = \gamma T + \frac{1}{2}\lambda ||c||^2$ (T : Terminal Node의 수, c : 각 노드의 가중치)여기서 $\gamma,\; \lambda$는 Hyper Parameter이다Split Finding기존에는 모든 Feature를 Split .. 2024. 7. 4.
반응형