VLM Paper Review

BLIP

코딩하는머글 2024. 6. 9. 23:30

2줄 요약

  • 기존 VL-Pretraining 모델을 사용한 web data의 noisy caption 문제를 CapFilt 구조 제시를 통해 해결
  • Text Generation, Image-text retrieval task를 모두 잘하는 새로운 모델 구조 제시(MED)

Abstract & Introduction

  • CLIP, ALIGN의 등장으로 Large web scale 데이터로 VLP(Vision-Language Pretraining) 모델을 학습시키기 시작
  • 그러나 Large web scale 데이터의 특성상 image와 text 데이터에 noise가 많다는 한계점이 존재
  • 2022년 1월에 등장한 BLIP은 잘못된 캡션을 걸러내고, 새로운 캡션을 사용하여 데이터 셋을 bootstrapping하는 CapFilt 구조를 제시하여 위의 한계점 극복하고자 함
  • 기존의 VL- pretraining 모델들은 구조적 한계 때문에 특정 task(Image understanding, Text generation 등)에만 강력한 모습을 보이는 경향
  • BLIP 새로운 모델 구조인 MED 통해 강한 일반화 성능을 보이는 VLP 모델을 선보이며 다양한 VL task에서 SOTA 등극하였습니다.

 

  • ALBEF 논문에서 제시한 모델과 유사하게, Image-text 데이터를 encoder(ViT, BERT)로 인코딩하고, task에 맞는 Loss함수를 활용

1. ITC(Image-Text Contrastive Loss):

  • Contrastive Learning의 개념을 그대로 도입하여, 같은 {image, text} pair에 있으면 코사인 유사도가 높게, 반대면 유사도가 낮게 나오도록 학습
  • 예를 들어, 한 batch에 16개의 데이터가 있다고 가정 -> 하나의 이미지는 자신과 매칭된 한 개의 text와만 positive pair 관계에 있고, 나머지 15개의 text에 대해 negative pair가 되도록 학습
  • Noisy web 데이터의 특성상, 잘못된 정보가 많으므로 이를 제어해주기 위해 momentum encoder를 사용해서 pseudo-label을 생성 -> 이를 통해 이미지를 더 풍성하고 정확한 의미를 가진 캡션과 연결

2. LM(Language Model Loss):

  • image를 보고 text를 생성할 수 있도록 학습
  • Image encoder를 거쳐서 나온 이미지 정보를 Cross-Attention 연산을 통해 받아서 해당 이미지에 대한 캡션을 생성

3. ITM(Image-Text Matching Loss):

  • {image, text} 쌍이 match 됐는지 예측하도록 학습합니다. LM과 마찬가지로 이미지 정보를 Cross-Attention을 통해 받습니다.
  • 학습 과정에서 negative sample 선택할 , 최대한 image text semantic 정보가 비슷한 hard negative sample 선택해 학습합니다.

CapFlit

  • 인간이 직접 제작한 {image, text} pair로 Captioner(Image-grounded Text-Decoder)를 학습하고, web에서 수집한 image에 대한 캡션을 생성합니다.
  • 인간이 직접 제작한 {image, text} pair Filter(image-grounded Text Encoder) 학습하고, web에서 수집한 {image, text} pair, 그리고 Captioner 생성한 {image, generated_text} pair 각각 Filter 통과시킵니다. , image, text 서로 맞는 경우를 제거하는 방식으로 Noisy web data 문제를 해결했습니다.

 

'VLM Paper Review' 카테고리의 다른 글

PaLI-3  (0) 2024.06.10
LLaVA 1.5 - Improved Baselines with Visual Instruction Tuning  (0) 2024.06.09
BLIP2  (0) 2024.06.09
LLaVA  (0) 2024.06.09
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)  (0) 2024.06.09