본문 바로가기

add&norm1

[DL][NLP] Transformer Encoder 동작 과정(Multi Head Self Attention, Position-wise Feed Forward Neural Network(FFNN)) 1. Encoder의 Self-AttentionSelf - Atention의 의미Attention Function은 주어진 "Query"에 대해서 모든 "Key"와의 유사도를 각각 구하고, 이 유사도를 가중치로 하여 Key와 Mapping 되어 있는 각각의 "Value"에 반영하는 합수이다. 그리고 유사도가 반영된 "Value"를 모두 가중합하여 Attention Value를 구한다. 앞서 Seq2Seq에서 Attention을 사용할 경우 Query, Key, Value는 아래와 같았다. t 시점이라는 것은 계속 변화하면서 반복적으로 Query를 수행하므로 전체 시점에 대해서도 일반화할 수 있다 Q : t 시점의 Decoder Cell에서의 hidden State -> 모든 시점의 Decoder .. 2024. 10. 29.

이전 1 다음

티스토리툴바