본문 바로가기
반응형

Transformer2

[DL][NLP]Transformer 모델 1. 기존 Seq2Seq 모델의 한계기존의 Seq2Seq 모델은 Encoder-Decoder 구조로 구성되어있다. 여기서 Encoder는 Input Sequence를 하나의 벡터 표현으로 압축하고, Decoder는 이 벡터 표현을 통해 Output Sequence를 만들어내었다.        하지만 이러한 구조는 Encoder가 입력 시퀀스를 하나의 벡터로 압축하는 과정에서 입력 시퀀스의 정보가 일부 손실된다는 단점이 있었고, 이를 보정하기 위해 Attention이 사용되었다       그런데 Attention을 RNN의 보정을 위한 용도로서 사용하는 것이 아니라 Attention만으로 Encoder와 Decoder를 만들어보면 어떨까라는 Idea를 통해 Transformer가 탄생되었다.2. Trans.. 2024. 10. 29.
[DL][NLP] Transformer Encoder 동작 과정(Multi Head Self Attention, Position-wise Feed Forward Neural Network(FFNN)) 1. Encoder의 Self-AttentionSelf - Atention의 의미Attention Function은 주어진 "Query"에 대해서 모든 "Key"와의 유사도를 각각 구하고, 이 유사도를 가중치로 하여 Key와 Mapping 되어 있는 각각의 "Value"에 반영하는 합수이다. 그리고 유사도가 반영된 "Value"를 모두 가중합하여 Attention Value를 구한다. 앞서 Seq2Seq에서 Attention을 사용할 경우 Query, Key, Value는 아래와 같았다.   t 시점이라는 것은 계속 변화하면서 반복적으로 Query를 수행하므로 전체 시점에 대해서도 일반화할 수 있다   Q : t 시점의 Decoder Cell에서의 hidden State -> 모든 시점의 Decoder .. 2024. 10. 29.
반응형