Self-Attention hoạt động dựa trên việc tính toán mối quan hệ giữa từng cặp từ trong chuỗi bằng các vector Query, Key và Val