Transformer model

"Attention is All you Need (2017, Google)"

Self-Attention : 문장 안의 각 단어가 다른 단어들과 얼마나 관련이 있는지 계산하는 과정
Multi-Head Attention : Self-attention 을 여러개 동시 수행하는 기법으로 다양한 시각에서 문맥을 파악할 수 있으며 번역 요약 같은 작업에서 더 정확한 결과 도출
Positional Encoding : 각 단어의 위치 정보를 추가로 넣어주는 방식

Bert(Bidrectional Encoder Representations from Transformers)
- 문장의 왼쪽 오른쪽을 동시 참고하는 모델
- 문장 이해, 감성 분석, 문장 분류 같은 작업에 강함
T5(Text-to-Text Transfer Transformer)
- 모든 NLP 문제를 입력 -> 출력 변환(Text to Text) 방식으로 해결하는 모델

1) Query, Key, Value : 각 단어를 벡터로 변환한 후, 세가지 행렬을 만듬

2) Query 와 Key를 곱해서 가중치 계산

query 와 Key를 내적하면 각 단어들 간의 유사도를 구해서, 한 단어가 다른 단어와 얼마나 관련이 있는지 계산

3) Softmax로 정규화 : 계산된 가중치를 softmax 함수에 넣어서 확률값으로 변환

Augustine