반응형 Attention mechanism1 [DL][NLP] Attention Mechanism(어텐션 메커니즘) 1. Attention Mechanism 등장 배경Seq2Seq 모델은 Encoder에서 Input Sequence를 Context Vector라는 하나의 고정된 크기의 벡터 표현으로 압축하고, Decoder는 이 Context Vector를 통해 Output Sequence를 만들어낸다. 하지만 이러한 RNN에 기반한 Seq2Seq 모델에는 크게 두 가지 문제가 있다.하나의 고정된 크기의 벡터에 모든 정보를 압축하려고 하니 정보 손실이 발생RNN의 고질적인 문제인 Vanishing Gradient 문제결국 기계 번역 분야에서 입력 문장이 길어지면 성능이 떨어지는 현상이 나타났고, 이를 위한 대안으로 Input Sequence가 길어지면 출력 Sequence의 정확도가 떨어지는 것을 보정해주기 .. 2024. 10. 28. 이전 1 다음 반응형