1. Vision Transformer (ViT) 모델은 이미지를 어떻게 임베딩하여 Transformer에 입력하는지 작성하시오.

  2. ViT에서 Multi-Head Self-Attention이 왜 중요한 지 또는 Multi-Head Self-Attention을 사용하면서 얻을 수 있는 이점에 대해 작성하시오.