[Optimization]Adam(Adaptive Momentum Estimation), Adamax

앞선 글에서 Gradient Descent에서 Momentum(운동량), Velocity(속도)를 조정하는 방법들에 대해서 알아보았습니다

[Optimization]Momentum, Nesterov Accelerated Gradient(NAG)

앞서 Gradient Descent 에서 Mini - Batch GD, SGD를 공부해보았습니다 [Optimization][Gradient Descent] Batch와 Gradient Descent(Full batch, Mini-batch, SGD)[Optimization] Gradient Descent(경사하강법)! Optimization에 대해서 이제 처

self-objectification.tistory.com

이번 글에서는 Momentum, Velocity를 모두 조정하는 방법인 Adam에 대해 알아보도록 하겠습니다

Adam(Adaptive Momoment Estimation)

Adam은 Momentum과 RMSProp의 장점을 결합한 Gradient Descent
Momentum의 특징인 $v_i$ 와 RMSProp의 특징인 기울기의 제곱을 지수 이동 평균한 값을 수식에 활용합니다

$v(t)=β1⋅v(t−1)+(1−β1)⋅∇L(θt)G(t)=β2⋅G(t−1)+(1−β2)⋅∇L(θt)2θt+1=θt−η⋅ˆG(t)√ˆv(t)+ϵ<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mtable displaystyle="true" columnalign="right left" columnspacing="0em" rowspacing="3pt"><mtr><mtd></mtd><mtd><mi>v</mi><mo stretchy="false">(</mo><mi>t</mi><mo stretchy="false">)</mo><mo>=</mo><msub><mrow data-mjx-texclass="ORD"><mi>β</mi></mrow><mn>1</mn></msub><mo>⋅</mo><mi>v</mi><mo stretchy="false">(</mo><mi>t</mi><mo>−</mo><mn>1</mn><mo stretchy="false">)</mo><mo>+</mo><mo stretchy="false">(</mo><mn>1</mn><mo>−</mo><msub><mrow data-mjx-texclass="ORD"><mi>β</mi></mrow><mn>1</mn></msub><mo stretchy="false">)</mo><mo>⋅</mo><mi mathvariant="normal">∇</mi><mrow data-mjx-texclass="ORD"><mi>L</mi><mo stretchy="false">(</mo><msub><mi>θ</mi><mi>t</mi></msub><mo stretchy="false">)</mo></mrow></mtd></mtr><mtr><mtd></mtd><mtd><mi>G</mi><mo stretchy="false">(</mo><mi>t</mi><mo stretchy="false">)</mo><mo>=</mo><msub><mrow data-mjx-texclass="ORD"><mi>β</mi></mrow><mn>2</mn></msub><mo>⋅</mo><mi>G</mi><mo stretchy="false">(</mo><mi>t</mi><mo>−</mo><mn>1</mn><mo stretchy="false">)</mo><mo>+</mo><mo stretchy="false">(</mo><mn>1</mn><mo>−</mo><msub><mrow data-mjx-texclass="ORD"><mi>β</mi></mrow><mn>2</mn></msub><mo stretchy="false">)</mo><mo>⋅</mo><mi mathvariant="normal">∇</mi><msup><mrow data-mjx-texclass="ORD"><mi>L</mi><mo stretchy="false">(</mo><msub><mi>θ</mi><mi>t</mi></msub><mo stretchy="false">)</mo></mrow><mn>2</mn></msup></mtd></mtr><mtr><mtd></mtd><mtd><msub><mi>θ</mi><mrow data-mjx-texclass="ORD"><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>=</mo><msub><mi>θ</mi><mi>t</mi></msub><mo>−</mo><mi>η</mi><mo>⋅</mo><mfrac><mrow><mrow data-mjx-texclass="ORD"><mover><mi>G</mi><mo stretchy="false">^</mo></mover></mrow><mo stretchy="false">(</mo><mi>t</mi><mo stretchy="false">)</mo></mrow><msqrt><mrow data-mjx-texclass="ORD"><mover><mi>v</mi><mo stretchy="false">^</mo></mover></mrow><mo stretchy="false">(</mo><mi>t</mi><mo stretchy="false">)</mo><mo>+</mo><mi>ϵ</mi></msqrt></mfrac></mtd></mtr></mtable></math>$

※ 편향 보정

초기에 $v(t)$ 와 $G(t)$ 는 0에 가까운 값을 가지므로 이를 보정하여 추정이 정확하게 이루어지도록 한다.

$ˆv(t)=v(t)1−βt1,ˆG(t)=G(t)1−βt2<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mrow data-mjx-texclass="ORD"><mover><mi>v</mi><mo stretchy="false">^</mo></mover></mrow><mo stretchy="false">(</mo><mi>t</mi><mo stretchy="false">)</mo><mo>=</mo><mfrac><mrow><mi>v</mi><mo stretchy="false">(</mo><mi>t</mi><mo stretchy="false">)</mo></mrow><mrow><mn>1</mn><mo>−</mo><msubsup><mi>β</mi><mn>1</mn><mi>t</mi></msubsup></mrow></mfrac><mo>,</mo><mstyle scriptlevel="0"><mspace width="1em"></mspace></mstyle><mrow data-mjx-texclass="ORD"><mover><mi>G</mi><mo stretchy="false">^</mo></mover></mrow><mo stretchy="false">(</mo><mi>t</mi><mo stretchy="false">)</mo><mo>=</mo><mfrac><mrow><mi>G</mi><mo stretchy="false">(</mo><mi>t</mi><mo stretchy="false">)</mo></mrow><mrow><mn>1</mn><mo>−</mo><msubsup><mi>β</mi><mn>2</mn><mi>t</mi></msubsup></mrow></mfrac></math>$

$\hat{v}(t),\; \hat{G}(t)$ 는 초기 학습 단계에서 gradient가 작을 때 적절한 learning rate를 선택하기 위해 bias가 수정된 값이다

1차 모멘텀 추정

$v(t)$ 는 Momentum에서와 같이 Gradient에 EMA를 적용한 값을 사용한 것입니다

여기서 $\beta_1$ 은 보통 0.9의 값을 사용합니다

아래 글은 Momentum에 대한 글입니다.

[Optimization]Momentum, Nesterov Accelerated Gradient(NAG)

self-objectification.tistory.com

2차 모멘텀 추정

$G(t)$ 는 RMSProp에서와 같이 Gradient의 제곱에 EMA를 적용한 값을 사용한 것입니다

여기서 $\beta_2$ 은 보통 0.99의 값을 사용합니다

아래 글은 RMSProp에 대한 글입니다.

[Optimization]Adagrad(Adaptive Gradient), RMSProp(Root Mean Squared Propagation), Adadelta(Adaptive delta)

앞선 글에서는 Gradient Descent의 운동량(Momentum)을 조정하여 수렴속도를 빠르게 하는 방법인 Momentum, Nesterov Accelerated Gradient(NAG) Optimizer를 살펴보았습니다 [Optimization]Momentum, Nesterov Accelerated Gradient(

self-objectification.tistory.com

Adam의 장점

적응적인 학습률 : 각 Paramter 마다 개별적으로 학습률을 조정
빠르고 안정적인 수렴 : 1차 모멘텀과 2차 모멘텀을 결합하여 빠르게 수렴하고 큰 기울기로 인한 과도한 업데이트 방지, 기울기와 기울기 제곱을 동시에 추정함으로써 더욱 안정적이고 빠른 학습 가능
편향 보정 : 초기 단계에 편향 보정을 적용하여 $v(t)$ 와 $G(t)$ 가 너무 작아지는 문제를 방지

Adam의 단점

메모리 사용량 : 각 Parameter에 대해 1차와 2차 모멘텀 추정을 유지해야 하므로 다른 최적화 알고리즘에 비해 메모리 사용량이 많다
빠르고 안정적인 수렴 : 1차 모멘텀과 2차 모멘텀을 결합하여 빠르게 수렴하고 큰 기울기로 인한 과도한 업데이트 방지, 기울기와 기울기 제

Adamax

Adamax는 Adam 논문에서 Extension으로 제안된 알고리즘입니다

Adam은 L2 Norm을 기반으로 Learning rate를 조정하는데 Adamax는 NP Norm으로 확장하여 Learning rate를 조정하도록 확장시킨 알고리즘입니다

하지만 p가 매우 클 경우, NP Norm이 극단적인 값을 갖는 등 매우 불안정할 수 있다고 합니다

$v(t)$ 는 Adagrad에서 사용한 것과 동일하게 사용합니다

$v (t) = β 1 \cdot v (t - 1) + (1 - β 1) \cdot η \nabla L (θ t) <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mi>v</mi><mo stretchy="false">(</mo><mi>t</mi><mo stretchy="false">)</mo><mo>=</mo><msub><mrow data-mjx-texclass="ORD"><mi>β</mi></mrow><mn>1</mn></msub><mo>\cdot</mo><mi>v</mi><mo stretchy="false">(</mo><mi>t</mi><mo>-</mo><mn>1</mn><mo stretchy="false">)</mo><mo>+</mo><mo stretchy="false">(</mo><mn>1</mn><mo>-</mo><msub><mrow data-mjx-texclass="ORD"><mi>β</mi></mrow><mn>1</mn></msub><mo stretchy="false">)</mo><mo>\cdot</mo><mi>η</mi><mi mathvariant="normal">\nabla</mi><mrow data-mjx-texclass="ORD"><mi>L</mi><mo stretchy="false">(</mo><msub><mi>θ</mi><mi>t</mi></msub><mo stretchy="false">)</mo></mrow></math>$

Adam은 L2 Norm을 사용하였지만 LP Norm으로 확장시킨 식은 아래와 같습니다

$V(t)=β2⋅V(t−1)+(1−β2)⋅(∇L(θt))p=(1−βp2)t∑i=1β2p(t−i)|∂L∂w(t)|<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mi>V</mi><mo stretchy="false">(</mo><mi>t</mi><mo stretchy="false">)</mo><mo>=</mo><msub><mrow data-mjx-texclass="ORD"><mi>β</mi></mrow><mn>2</mn></msub><mo>⋅</mo><mi>V</mi><mo stretchy="false">(</mo><mi>t</mi><mo>−</mo><mn>1</mn><mo stretchy="false">)</mo><mo>+</mo><mo stretchy="false">(</mo><mn>1</mn><mo>−</mo><msub><mrow data-mjx-texclass="ORD"><mi>β</mi></mrow><mn>2</mn></msub><mo stretchy="false">)</mo><mo>⋅</mo><mo stretchy="false">(</mo><mi mathvariant="normal">∇</mi><mrow data-mjx-texclass="ORD"><mi>L</mi><mo stretchy="false">(</mo><msub><mi>θ</mi><mi>t</mi></msub><mo stretchy="false">)</mo></mrow><msup><mo stretchy="false">)</mo><mi>p</mi></msup><mo>=</mo><mo stretchy="false">(</mo><mn>1</mn><mo>−</mo><msubsup><mi>β</mi><mn>2</mn><mi>p</mi></msubsup><mo stretchy="false">)</mo><munderover><mo data-mjx-texclass="OP" movablelimits="false">∑</mo><mrow data-mjx-texclass="ORD"><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow data-mjx-texclass="ORD"><mi>t</mi></mrow></munderover><msup><mrow data-mjx-texclass="ORD"><msub><mi>β</mi><mn>2</mn></msub></mrow><mrow data-mjx-texclass="ORD"><mi>p</mi><mo stretchy="false">(</mo><mi>t</mi><mo>−</mo><mi>i</mi><mo stretchy="false">)</mo></mrow></msup><mrow data-mjx-texclass="ORD"><mo minsize="1.623em" maxsize="1.623em">|</mo></mrow><mfrac><mrow><mi>∂</mi><mi>L</mi></mrow><mrow><mi>∂</mi><mi>w</mi><mo stretchy="false">(</mo><mi>t</mi><mo stretchy="false">)</mo></mrow></mfrac><mrow data-mjx-texclass="ORD"><mo minsize="1.623em" maxsize="1.623em">|</mo></mrow></math>$

여기서 $p \rightarrow \infty$ 일 때 $V(t)^{\frac{1}{p}}$ 를 $G(t)$ 라고 하면

$limp→∞V(t)1p=G(t)=max(β2G(t−1),|∂L∂w(t)|)<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><munder><mo data-mjx-texclass="OP">lim</mo><mrow><mi>p</mi><mo stretchy="false">→</mo><mi mathvariant="normal">∞</mi></mrow></munder><msup><mrow data-mjx-texclass="ORD"><mi>V</mi><mo stretchy="false">(</mo><mi>t</mi><mo stretchy="false">)</mo></mrow><mrow data-mjx-texclass="ORD"><mfrac><mn>1</mn><mi>p</mi></mfrac></mrow></msup><mo>=</mo><mi>G</mi><mo stretchy="false">(</mo><mi>t</mi><mo stretchy="false">)</mo><mo>=</mo><mo data-mjx-texclass="OP" movablelimits="true">max</mo><mrow data-mjx-texclass="ORD"><mo minsize="1.2em" maxsize="1.2em">(</mo></mrow><msub><mi>β</mi><mn>2</mn></msub><mi>G</mi><mo stretchy="false">(</mo><mi>t</mi><mo>−</mo><mn>1</mn><mo stretchy="false">)</mo><mo>,</mo><mrow data-mjx-texclass="ORD"><mo minsize="1.623em" maxsize="1.623em">|</mo></mrow><mfrac><mrow><mi>∂</mi><mi>L</mi></mrow><mrow><mi>∂</mi><mi>w</mi><mo stretchy="false">(</mo><mi>t</mi><mo stretchy="false">)</mo></mrow></mfrac><mrow data-mjx-texclass="ORD"><mo minsize="1.623em" maxsize="1.623em">|</mo></mrow><mrow data-mjx-texclass="ORD"><mo minsize="1.2em" maxsize="1.2em">)</mo></mrow></math>$

따라서 Adamax의 알고리즘은 아래와 같습니다

$w(t+1)=w(t)−ηG(t)^v(t)<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mi>w</mi><mo stretchy="false">(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo stretchy="false">)</mo><mo>=</mo><mi>w</mi><mo stretchy="false">(</mo><mi>t</mi><mo stretchy="false">)</mo><mo>−</mo><mfrac><mi>η</mi><mrow><mi>G</mi><mo stretchy="false">(</mo><mi>t</mi><mo stretchy="false">)</mo></mrow></mfrac><mrow data-mjx-texclass="ORD"><mover><mrow><mi>v</mi><mo stretchy="false">(</mo><mi>t</mi><mo stretchy="false">)</mo></mrow><mo stretchy="false">^</mo></mover></mrow></math>$

저작자표시 비영리 변경금지

'Optimization' 카테고리의 다른 글

[Optimization]Adagrad(Adaptive Gradient), RMSProp(Root Mean Squared Propagation), Adadelta(Adaptive delta) (2)	2024.06.12
[Optimization]Momentum, Nesterov Accelerated Gradient(NAG) (0)	2024.06.10
[Optimization][Gradient Descent] Batch와 Gradient Descent(Full batch, Mini-batch, SGD, Averaged SGD) (0)	2024.06.10
[Optimization] Gradient Descent(경사하강법) (1)	2024.06.08
[Optimization] Optimization 정의 (1)	2024.06.08

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

어떻게든 되겠지~

[Optimization]Adam(Adaptive Momentum Estimation), Adamax