Fine-Tuning and Higher Resolution

ViT의 Fine-Tuning 과정

실험 시 ViT 모델은 큰 데이터셋에 대해 사전 훈련을 진행한 후 작은 데이터셋에 대해 fine-tuning하는 과정을 거칩니다.

fine-tuning을 위하여 사전훈련된 z(모델에서 특징 벡터를 의미함)에 붙은 mlp(multi-layer-perceptron여러개의 선형 계층과 활성화 함수로 이루어진 네트워크)를 제거하고 0으로 초기화된 d x k 선형변환 층을 추가합니다.

fine-tuning시에 고해상도 이미지를 사용하는 것이 좋다고 알려져 있으므로 패치 크기를 일정하게 유지한 채 큰 크기의 이미지를 사용합니다.

패치 크기는 유지되지만 이미지는 커지므로 시퀀스의 길이가 더 길어지므로 사전 훈련된 임베딩 텐서가 무의미해지므로 2차원 보간(기존의 사전 훈련된 위치 임베딩을 새로운 이미지 크기에 맞게 조정)을 진행합니다.

ViT 실험 결과

image.png

ViT 모델은 레이어의 수에 따라 여러 종류로 나눠지게 됩니다.

해당 실험에서는 ViT-L/16을 사용하였습니다