2줄 요약
- 기존 VL-Pretraining 모델을 사용한 web data의 noisy caption 문제를 CapFilt 구조 제시를 통해 해결
- Text Generation, Image-text retrieval task를 모두 잘하는 새로운 모델 구조 제시(MED)
Abstract & Introduction
- CLIP, ALIGN의 등장으로 Large web scale 데이터로 VLP(Vision-Language Pretraining) 모델을 학습시키기 시작
- 그러나 Large web scale 데이터의 특성상 image와 text 데이터에 noise가 많다는 한계점이 존재
- 2022년 1월에 등장한 BLIP은 잘못된 캡션을 걸러내고, 새로운 캡션을 사용하여 데이터 셋을 bootstrapping하는 CapFilt 구조를 제시하여 위의 한계점 극복하고자 함
- 기존의 VL- pretraining 모델들은 구조적 한계 때문에 특정 task(Image understanding, Text generation 등)에만 강력한 모습을 보이는 경향
- BLIP은 새로운 모델 구조인 MED를 통해 강한 일반화 성능을 보이는 VLP 모델을 선보이며 다양한 VL task에서 SOTA에 등극하였습니다.
- ALBEF 논문에서 제시한 모델과 유사하게, Image-text 데이터를 encoder(ViT, BERT)로 인코딩하고, task에 맞는 Loss함수를 활용
1. ITC(Image-Text Contrastive Loss):
- Contrastive Learning의 개념을 그대로 도입하여, 같은 {image, text} pair에 있으면 코사인 유사도가 높게, 반대면 유사도가 낮게 나오도록 학습
- 예를 들어, 한 batch에 16개의 데이터가 있다고 가정 -> 하나의 이미지는 자신과 매칭된 한 개의 text와만 positive pair 관계에 있고, 나머지 15개의 text에 대해 negative pair가 되도록 학습
- Noisy web 데이터의 특성상, 잘못된 정보가 많으므로 이를 제어해주기 위해 momentum encoder를 사용해서 pseudo-label을 생성 -> 이를 통해 이미지를 더 풍성하고 정확한 의미를 가진 캡션과 연결
2. LM(Language Model Loss):
- image를 보고 text를 생성할 수 있도록 학습
- Image encoder를 거쳐서 나온 이미지 정보를 Cross-Attention 연산을 통해 받아서 해당 이미지에 대한 캡션을 생성
3. ITM(Image-Text Matching Loss):
- {image, text} 쌍이 match 됐는지 예측하도록 학습합니다. LM과 마찬가지로 이미지 정보를 Cross-Attention을 통해 받습니다.
- 학습 과정에서 negative sample을 선택할 때, 최대한 image나 text와 semantic 정보가 비슷한 hard negative sample을 선택해 학습합니다.
CapFlit
- 인간이 직접 제작한 {image, text} pair로 Captioner(Image-grounded Text-Decoder)를 학습하고, web에서 수집한 image에 대한 캡션을 생성합니다.
- 인간이 직접 제작한 {image, text} pair로 Filter(image-grounded Text Encoder) 학습하고, web에서 수집한 {image, text} pair, 그리고 Captioner로 생성한 {image, generated_text} pair를 각각 Filter에 통과시킵니다. 이 때, image, text가 서로 안 맞는 경우를 제거하는 방식으로 Noisy web data 문제를 해결했습니다.
'VLM Paper Review' 카테고리의 다른 글
PaLI-3 (0) | 2024.06.10 |
---|---|
LLaVA 1.5 - Improved Baselines with Visual Instruction Tuning (0) | 2024.06.09 |
BLIP2 (0) | 2024.06.09 |
LLaVA (0) | 2024.06.09 |
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) (0) | 2024.06.09 |