Abstract

트랜스포머 아키텍처는 자연어 처리 작업에서 사실상의 표준이 되었습니다.

컴퓨터 비전 분야에서의 적용은 아직 제한적입니다.

현재 비전 분야에서는 어텐션이 합성곱 신경망과 함께 사용되거나 CNN의 특정 구성 요소를 대체하는 방식으로 활용되고 있습니다.

이 논문에서는 CNN에 대한 의존이 필수적이지 않으며 이미지 패치를 직접 시퀀스로 변환하여 순수 트랜스포머 모델을 적용해도 이미지 분류 작업에서 뛰어난 성능을 발휘한다고 합니다.

특히 대규모 데이터셋에서 사전 학습 후, 중간 크기 또는 소규모 이미지 인식 벤치마크 데이터셋에 전이학습하면 Vision Transformer(ViT)는 최첨단 CNN과 비교하였을 때 뛰어난 성능을 보인다고 합니다.

Introduction

Self-Attention 아키텍처에 기반한 트랜스포머라는 모델은 병렬처리가 가능하여 학습 속도가 매우 빠르고 확장성도 좋기에 매개변수를 늘릴 수도 있다.

이러한 Transformer의 특징 때문에 계속해서 발전이 가능하다!

이전에는 Self-Attention과 CNN을 결합시키려는 시도가 많았다. 하지만 하드웨어 가속기의 최적화가 부족한 탓에 실용성이 떨어졌다.

그래서 Transformer를 직접 사용하는 것에 대해서 고민하게 됨.

이를 위해서 이미지를 여러개의 패치로 분할하고 각 패치들을 여러개로 변환하여 NLP에서 단어들이 입력으로 사용되는 것처럼 입력해준다. 최종적으로 Transformer를 사용하여 이미지 분류 학습을 진행하게 된다.

⇒ 정리하자면 이미지를 단어처럼 취급하여 Transformer를 적용하면 CNN이 없더라도 성능이 좋음을 의미한다.

Self-Attention 매커니즘 vs. Transformer 아키텍쳐

(조금 혼란스러워해서 정리해둡니다.) Self-Attention은 입력 시퀀스의 각 요소가 다른 요소와 어떻게 상호작용하는지 계산하는 메커니즘입니다.