드디어 대망의 DSL 마지막 강의다. NLP에서 지대한 영향력을 가지고 있는 transformer에 대해서 배운다. 머신러닝 무식자인 나도 "Attention is all you need."라는 말을 들어봤을 정도로 유명한 모델이다. 1. Tranformer 트랜스포머는 이전 주차에 배웠던 attentio 개념에 CNN을 섞은 모델이라고 한다. 강의에서는 트랜스포머의 핵심을 두 가지로 나눈다. 하나는 self attention이고 나머지 하나는 multi-head attention이다. 우선 첫 번째로 self attention은 이전의 attention과 상당히 유사한 방식으로 구한다. 핵심은 query, key, value로 불리는 세 가지 벡터인 것 같다. Query와 key 내적을 통해 누가, 왜..