VLM Paper Review

BLIP2

코딩하는머글 2024. 6. 9. 23:35
  • Multimodal 분야에서도 Large web dataset으로 학습하는 방법론이 증가하면서, LLM과 학습된 Image encoder를 함께 사용하는 시도가 지속됨.
  • 그러나 LLM은 학습 과정에서 이미지 정보를 전혀 받지 못했기 때문에, LLM에 이미지 정보를 전달하여 image, text 데이터를 align 해주는 단계가 꼭 선행돼야 함.
  • BLIPv2는 frozen image encoder와 LLM 모델을 연결시켜주는 새로운 방법인 Q-former를 제시
  • frozen된 모델들을 가져와서 파라미터 효율도 좋고, 거대 모델의 성능 좋은 representation learning까지 활용해 다양한 VL task의 SOTA에 등극

 

2줄 요약

  • 1. Encoder에 frozen Pretrained Model을 도입하고, 그로 인한 Modality gap은 Q-former를 통해 해결
  • 2. 다양한 VL task에서 SOTA 등극했으며, 상당한 Zero-shot 성능을 보여줌 -> Multimodal 챗봇의 가능성을 제시.

Abstract & Introduction

  • Blipv2는 2가지 단계를 거쳐 학습을 진행.
  • 1. Frozen pretrained image encoder를 통해 representation을 얻고, 이미지의 representation을 Q-former를 활용하여 frozen llm에 넘겨준다.
  • 2. LLM은 이 정보를 활용하여 VL generative learning을 진행
  • Q-former 간단한 transformer 구조로, frozen image encoder에서 정보를 뽑아내는데 활용. 번째 단계에서는 이미지로부터 text 연관된 정보를 뽑도록 학습되고,
    번째 단계에서는 뽑아낸 정보들이 LLM 의해 해석가능하도록 훈련.
    결과적으로 Frozen Large Model들로 인한 파라미터 효율성을 얻음과 동시에, LLM zero-shot 성능을 VL task 활용할 있게 .
  • Q-former는 blip에서 사용한 3가지 목적 함수를 활용
  • Stage1. ITC(image-text contrastive learning)
  • Image representation, text representation을 align 하기 위한 목적 함수이다. 즉, Modality gap을 좁히기 위해 사용. Image transformer에서 나온 query output과 text transformer에서 나온 output 간의 pairwise 유사도를 계산하고, 가장 값이 높은 pair를 query-text pair로 선정.
  • 이 때, image과 text가 서로 정보를 참고하면 cheating이 되기 때문에 이를 막고자 Uni-modal Self-Attention Mask를 사용
  • Constrastive learning을 할 때, information이 없도록 

Stage1. ITG(image-grounded text generation)

  • 주어진 image에 맞는 text를 생성하도록 하는 과정. Encoder에서 뽑아낸 이미지 정보는 공유된 self-attention layer를 통해 text tokens로 전해지는데, 이를 통해 query는 text와 관련된 이미지 정보들을 뽑도록 학습.
  • query가 text 정보를 미리 보면 부정행위라서 Multi-modal causal self-attention mask를 활용하여 query가 text 정보를 참고하지 못하도록 한다. 또한 text generation task에서 현 시점 이전의 text만 참고할 수 있도록 self-attention mask를 설계
  • query는 query만 보고 / text는 query와 자기 앞에 있는 text이 나온 걸 본다

Stage1. ITM(image-text matching)

  • Image와 text의 fine-grained alignment를 학습. image와 text pair가 서로 match 되는지 확인하기 위해 이진 분류를 활용
  • 가지고 있는 정보를 참고해도 문제가 없기 때문에, Bi-directional self-attention mask 사용

2단계는 Q-former를 llm에 연결하는 과정

  • Stage2
  • Q-former의 output query는 fully connected layer를 통해 llm로 전달된다. 완전연결 계층은 output query의 차원을 llm의 text embedding 차원으로 project 하는 역할을 한다. 사영된 결과물은 LLM의 text embedding 앞에 붙어 ‘soft visual prompt’로 활용
  • 본 논문에서는 Decoder-based, Encoder-Decoder based 방식을 모두 실험
  • Encoder-Decoder based 네트워크의 경우에는 text를 prefix, suffix text로 나눠 사용

 

Pretraining & Experiments & Results

  • Pretraining dataset은 BLIP에서 사용한 데이터를 그대로 사용(CapFlit)
  • Pretrained Encoder ViT(ViT-L/14, ViT-G/14) 계열, LLM으로는 OPT, Flant5 계열 등을 활용

representation learning의 중요성

  • BLIP2 이전에 존재하는 모델들은 representation 정보를 주지 않고, image-to-text loss만을 활용해서 modality gap을 해결하고자 함.
  • 위 실험을 통해 Q-former를 활용한 visual representation 전달 방식이 유의미
  • ITG loss 설계 때 계획한 것처럼, ITG loss가 Image-text retrieval 성능 향상에 도움을 줌

 

Limitations & Conclusion

  • Zero-shot 성능은 향상됐지만, 실제 사용할 정도는 아니며 in-context VQA examples에 대한 성능이 안 좋다. -> Image-text pair가 하나라서 이런 문제가 발생. 
  • 어떤 장면을 표현할 때는, 다양한 맥락에서 해석할 수 있기 때문에 image 하나당 여러 text pair가 있는 데이터셋 활용이 필요하다.
  • LLM의 특성상 모델 자체가 인간에 의해 편향되는 문제도 존재.
  • 그래도 Frozen model 간의 modality gap 메우기 위한 새로운 방법을 제시하고, 여러 VL task에서 성능을 끌어올린 것만으로 !

 

'VLM Paper Review' 카테고리의 다른 글

PaLI-3  (0) 2024.06.10
LLaVA 1.5 - Improved Baselines with Visual Instruction Tuning  (0) 2024.06.09
BLIP  (0) 2024.06.09
LLaVA  (0) 2024.06.09
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)  (0) 2024.06.09