VLM Paper Review

LLaVA

코딩하는머글 2024. 6. 9. 20:50

이전에는 Flamingo, BLIP-2 등 시각 정보를 인식해 질문에 답하고 채팅을 이어가는 연구가 있었음. 단순한 image-text pair로 데이터셋이 단순하게 이루어짐.

하지만, LLaVA는 이미지를 포함한 지시문 데이터 형식인 visual instruction-following data를 새롭게 제안함. 학습된 LLM인 Vicuna 모델로 파라미터를 초기화하고, 이를 CLIP vision encoder와 연결 → 이 덕분에 기존 LLM 모델의 언어능력을 충분히 leverage 하면서 이미지 정보를 잘 이해하고 대화를 이어갈 수 있는 모델이 됨.

‘이미지 기반 챗봇 형식의 대화가 가능한 멀티모달 모델 LLaVA’

0. Abstract

  • 최근에는 GPT4와 같은 모델로 instruction-following data를 생성하고(machin-generated) LLM 모델을 instruction tuning하는 연구들이 이루어 진다. → 멀티모달 테스크에서는 상대적으로 연구가 덜함.
  • 이 논문은 언어만을 인풋으로 받는 GPT-4를 사용하여 멀티모달 언어-이미지 instruction-following 데이터를 생성하고, 이를 이용해 LLaVA를 만듦.

1. Introduction

  • 기존 멀티모달 테스크에서는 이미지 텍스트 쌍의 데이터는 단순히 텍스트가 이미지에 대한 설명으로 이루어진 경우가 많음.
  • 이미지에 대해 질의응답을 하고 대화하는데 한계
  • Meta에서 공개한 LLaMA는 GPT-3의 성능과 일치하며, finetune한 Alpaca, Vicuna, GPT-4 LLM은 다양한 machine-generated 고품질 지시문을 활용하여 LLM의 alignment 능력을 개선할 수 있음을 보여줌.
  • 위의 연구에 염감 받아, 멀티모달로 instruction-tuning을 확장한 visual instruction-tuning을 제안 → 이는 general-purpose visual assistant를 구축하는 하나의 방향성을 제시
  • 논문의 contribution 요약

2. GPT-assisted Visual Instruction Data Generation

  • ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks 해당 연구를 통해서, ChatGPT로 Text-Annotation을 수행해 사람들이 직접 작업한 것보다 좋은 품질의 데이터를 생성
  • 이를 통해, GPT-4를 leverage 해서 기존의 image-text pair로부터 멀티모달 instruction-following data를 만드는 방법을 제안
  • 특정 prompt를 GPT4의 input으로 사용하는데, 이미지는 input으로 사용하지 않고, 이미지와 관련된 캡션 및 Bounding box 값들만 이용해 질문 및 대화셋을 만들었다.
  • 예를 들어, 이미지, 캡션, Boxes 정보들만 있을 때 / 이를 prompt의 ‘context’에 넣음.
  • ChatGPT를 이용해 질문하고 답하는 대화 형식(type1: conversation)의 데이터를 생성한다. 다른 prompt를 활용하면, 더 자세한 설명(type2: detailed description) 혹은 복잡한 추론(type3: complex reasoning) 데이터를 생성할 수 있다.
  • 이때 context로 주는 두 가지 타입의 상징적 표현(symbolic representation)인 캡션과 Bounding box의 역할
  • COCO 데이터셋을 총 3가지 타입의 instruction-following data를 만듦. 각 타입에 대해 몇 가지 예시를 사람이 설계한 후, 이 seed 예제를 GPT-4 in-context-learning에 사용

3. Visual Instruction Tuning

 

1) Architecture

  • Linear layer를 거친 sequence of visual tokens(Hv)을 얻을 수 있으며, 이는 lightwieght인 동시에 데이터 중심의 실험을 빠르게 반복할 수 있는 cost-effective한 scheme

2) Training

  • 학습을 위해서 instruction-tuning을 수행하는데, 이때 기존 많은 언어 모델에서 쓰이는 auto-regressive training objective를 사용. 이는 앞에 나온 단어(token)들을 보고, 다음 단어를 맞추는 task로, 기본 언어모델들과 달리 이미지 feature를 함께 사용한다는 차이점이 있다. 아래는 수식이다.
  • 위에서는 loss에 대해서 알아보았다. 학습 시 사용하는 데이터에 따라 LLaVA는 two-stage로 학습한다.
  • Stage 1: Pre-training for Feature Alignment
  • concept coverage와 학습의 효율성 사이의 밸런스를 맞추기 위해, 저자들은 CC3M 데이터 595K image-text pair로 필터링 한다.(기존 CC3M은 약 300만장으로 너무 크기 때문에 이중 적합한 데이터를 사용). 이 데이터들을 instruction-following data로 형식으로 변환합니다. 하지만 이전과 같이 여러 턴의 대화가 아니라 single-turn 대화로 만들었으며, 이미지에 대해 간략하게 설명하도록 요청하는 instruction을 주면 기존의 실제 캡션을 대답으로 사용한다.
  • 이때 질문에 해당하는 예는 “Describe the image concisely.”, “Provide a brief description of the given image.” 와 같은 것이다.
  • Stage1에서는 visual encoder와 LLM의 weight은 모두 학습하지 않으며(frozen), 오직 linear layer인 projection matrix만 학습합니다. 이를 통해, 이미지 feature는 사전 학습된 LLM의 word embedding과 align 될 수 있습니다. 이 단계는 frozen LLM에 호환되는 visual tokenizer를 학습하는 과정으로 이해할 수 있다.
  • Stage 2: Fine-tuning End-to-End
  • 이때는 visual encoder만 frozen하고, LLM과 projection layer 두 모듈을 학습합니다. 저자들은 두 가지 시나리오에 대해 고려했습니다.

4. Experiments

 

1) Multimodal Chatbot

  • LLaVA의 이미지 이해 및 대화 능력을 보여주기 위해 저자들은 chatbot 데모를 개발
  • LLaVA는 비교적 적은 multimodal instruction-following dataset(~80K unique images)으로 학습했음에도 multimodal GPT-4와 유사한 추론 결과를 보여줌. 대조적으로 BLIP-2와 OpenFalmingo는 적절한 방식으로 대답하라는 사용자의 지시를 따르는 대신, 이미지를 설명하는데 중점을 두었다.

2) Quantitative Evaluation

  • LLaVA의 성능을 체계적으로 이해하기 위해 GPT-4를 활용해 모델의 instruction-following 능력을 정량적 metric으로 측정합니다. 구체적으로 COCO Val 2014 데이터셋에서 random하게 30개의 이미지를 뽑아 이전에 언급한 데이터 생성 파이프라인을 사용해 세 가지 유형의 질문(대화, 자세한 설명, 복잡한 추론)을 생성합니다. LLaVA는 질문과 visual input image를 기반으로 답변을 생성합니다. LLaVA는 질문과 visual input image를 기반으로 답변을 생성합니다. 그리고 GPT-4는 질문과 ground-truth bounding boxes, 캡션을 기반으로 upper bound를 역할 하는 reference prediction을 만듭니다. 이렇게 두 모델로부터 응답을 얻은 후, 질문과 시각적 정보(캡션 및 bounding box) 및 생성된 두 응답을 GPT-4에 넣어줍니다.
  • 이때 GPT-4 어시스턴트 응답의 유용성, 관련성, 정확성 세부 수준을 평가해 1~10 사이의 점수를 부여합니다. 이때 점수가 높을수록 전반적인 성과가 우수함을 나타냅니다. GPT-4 모델을 이해할 있도록 평가에 대한 포괄적인 설명을 제공.

 

'VLM Paper Review' 카테고리의 다른 글

PaLI-3  (0) 2024.06.10
LLaVA 1.5 - Improved Baselines with Visual Instruction Tuning  (0) 2024.06.09
BLIP2  (0) 2024.06.09
BLIP  (0) 2024.06.09
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)  (0) 2024.06.09