기존 Transformer를 Vision에 활용하는 경우에는 문제가 두가지 존재하였다.
→ 이미지 내에서 객체의 크기가 다양하다 & 픽셀의 해상도가 높으면 연산량이 많아진다
위의 문제를 해결하기 위해서 Swin 방법을 사용하게 된다.
Swin transformer는 전체 이미지를 작은 window로 분할하고 window 내에서 self-attention 연산을 독립적으로 수행한다.
→ 이때, window간의 관계를 학습할 수 없다
위의 문제를 해결하기 위해서 window를 shift하게 된다.
→ 각 window가 이미지의 다른 부분을 포함할 수 있도록 window를 이동시킨다. 결과적으로 점진적으로 이미지의 전역적인 의미를 파악해낼 수 있습니다.

이 그림을 보면, Swin Transformer의 경우에는 더 작은 패치 단위로 나누어 연산을 하는 것을 볼 수 있는데 Swin의 적은 연산량이 이를 가능하게 한다. → 따라서, 객체 탐지에서 ViT보다 뛰어난 성능을 보여줍니다. (객체의 크기는 다양하기 때문에 다양한 크기의 패치가 잘 인식할 수 있음)
⭐ 전체적인 파이프라인 정리 ⭐
위 동작을 반복적으로 수행하여 점진적으로 전역적인 이미지의 의미를 파악해나갈 수 있습니다.