Transformer 為什麼需要一層 pointwiseFFN ?
一開始看 “Attention is all you need” 時,心裡隱隱有這個疑問。我以為對於 contexual representation 而言 “Attention is all I need”,self-attention 的機制可以讓模型直接獲得前後文本資訊,且經由訓練學習每個 token 要花多少注意力在哪些其他 token 上 。那 pointwiseFFN 究竟是要學習什麼呢? 後來上網搜尋發現鄉民也有同樣的疑問, 以下就統整我目前所發現的解釋跟我一些想法。

