VLM Paper Review

The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

코딩하는머글 2024. 6. 9. 20:37

1. Motivation and Overview

 

  • 지금까지 LLMs 은 엄청난 발전이 있었습니다. 지금까지는 Visual encoder를 LLM과 일치하도록 fine tuning 하거나 vision-language model을 사용해서 text를 LLMs에 직접 넣어주는 방식을 사용해왔습니다.
  • 하지만 이 방식으로는 제한된 모델이나 데이터 스케일 제한으로 인해 성능에 한계. 이 논문에서 SOTA LLM인 GPT-4 기반으로 구축되고, 대규모 데이터로 학습된 최신 LMM인 GPT-4V를 소개
    • What are GPT4V’s supported inputs and working modes? GPT-4V는 입력 이미지, 서브 이미지, 텍스트, 장면 텍스트, visual point등을 섞은 input을 이해하고 처리하는데 엄청난 성능을 보입니다.
    • What are the quality and genericity of GPT4V’s capabilities on different domains and tasks? openworld visual understanding, visual description, multomodal knowledge, commonsense, scene text understanding, document reasoning, coding, temporal reasoning, abstract reasoning, emotion understanding 등등 인간 수준의 인상적인 능력을 보여줌
    • What are effective ways to use and prompt GPT-4V? GPT-4V는 입력 이미지에 그려진 visual pointer 와 장면 텍스트와 같은 픽셀 공간 편집을 이해하는 데 강점이 있습니다. 여기서 영감을 받아 입력 이미지를 직접 편집해서 task를 지시하는 visual referring prompting에 대해 설명합니다.
    • What are promising future directions?

2. GPT-4V’s Input Modes

  • Text-only Inputs
  • Single Image-text Pair
  • Interleaved Image-text Inputs → 영수증 같은 곳에서 정보 빼내기
  • GPT-4V’s Working Modes and Prompting Techniques→ 묘사나, 설명이나, 추측 등 instructions에 대해서 다양한 답변 생성
  • → 전부다 프롬프팅에 중요성을 두고 있다.
  • Contrained prompting
    • 출력 형식을 지정해서, 출력을 요구하는 prompting
  • Condition on Good Performance
    • 순서에 따라서, 열에 따라서, rule-based prompting
  • Visual Referring Prompting
    • 이미지에 직접 그린 모양에 강점을 가진 결과를 보임.
    • 특히, 유저가 그림에 그린 문장을 보고도 해석하는 성능을 가짐.
  • Visual + Text Prompting
    • 패턴 찾기에 특화된 형식…!
  • In-context Few-shot Learning
    • 실제 계기판의 여러 방향으로 사진을 보여주고, 정답에 대한 in-context learning을 진행한다. 2-shot 이후에 좋은 성능을 보여주는 걸로 나타남.
  • Image Description on Diverse Domains
    • single image-text pair로 프롬프트 describe the image 해주면 대부분의 image에 대한 해석이 좋다.(유명인사 인지 / Landmark recognition / Food recognition / Medical image understanding / Logo recognition / Scene understanding / Counterfactual examples → 모순된 답변에 대해서 good)
  • Object Localization, Counting, and Dense Captioning
    • Spatial relationship understanding → 사람과 물체 사이의 공간 관계를 이해 잘함.
    • Object counting → 보통은 잘 세지만, 복잡한 사진에서는 실수가 생김 → 프롬프팅 잘하면 잘 됨.
    • Object localization → CV에서 많이 하던 task. 물체 bounding box 만들기. → 정확하지 않기 때문에 정밀한 prompting의 간섭이 필요
    • Dense captioning → 이미지에서 각 영역에 대한 자세한 설명을 생성
    • Multimodal Knowledge and Common sense → Joke and memo
    • Science and knowledge → 좋은 성능을 보임
    • Multimodal Commonsense → [person3] 등과 같은 특정 인물, 사물에 대한 정확한 행동 측정 가능할 것으로 보임(내 생각)
  • Scene Text, Table, Chart and Document Reasoning
    • Scene text recognition → OCR로 보이는데…. 일단 글 잘 읽음
    • Visual math reasoning → 사진 형태의 수학 문제도 잘 이해한다.
    • Chart understanding and reasoning → 차트 사진을 이해할 뿐만 아니라 파이썬 코드로도 작성 가능하다.
    • Table understanding and reasoning → 테이블로 마찬가지~
    • Document understanding → 얘도 어려운 문서 같은 경우는 프롬프팅 필요함.
  • Multilingual Multimodal Understanding → 한글 등의 타국어 이해
  • Coding Capability with Vision → 수식이 있는 사진, 인식이 좋게 출력 가능 / 그래프가 주어졌을 때, 비슷하게 그려달라 해도 해줌.
  • Interaction with Humans: Visual Referring Prompting → 특정 공간을 pointing 하는 건 Human-computer 상호작용에 필수적인 기능이다.
  • Understanding Pointing Inputs → dense captioning은 bounding box를 이용해서 localized된 설명을 만들지만, 전체 이미지 context를 무시한 sub-optimal한 설명을 만드는 경우가 많습니다. Visual pointing을 이용하면 전체 이미지 context를 유지하면서 자연스럽게 관심 부분을 표시한다. → 즉 간단하게 설명하자면, 이미지에 좌표계를 설정하고, 그 좌표계의 x,y에 해당하는 relative region의 물체에 대하여 설명을 하는 것. 이를 통해 전체 이미지에 대한 관심 부분만 표시 가능(이렇게 해도 되고, text-format로 표시도 가능하다)
  • Visual Referring Prompting → visual pointing을 잘 이해하는 gpt-4v을 보고, 이를 활용. text를 활용하는 기존 prompting 대신에 이미지를 edit한 후, human-computer 상호작용을 보완하는 기법이다.
  • Generate Pointing Outputs → region이 지정된 상황에서 해당 boundary에 있는 구역에 대한 describe이 가능
  • Temporal and Video Understanding → gpt-4v는 이미지를 입력으로 사용하지만 이미지들의 시간적 순서와 비디오 content에 대한 이해도를 평가하는 것이 중요. Real-world event는 시간에 따라 전개되며 AI system의 능력은 이 동적 프로세스를 이해하는 것이 실제 apllication에 매우 중요
    • Multi-image Sequencing → 실제로도 시간 순서에 대한 이해도가 좋음.
    • Video Understanding
      • Temporal ordering → 시간 순서는 시간적 상식의 중요한 요소이고, GPT-4V의 평가에서 필수적인 부분. 시간이 뒤섞인 이미지를 제공하고, 인과관계 및 시간 진행을 식별하는 능력을 측정하는 부분을 포함
      • Temporal anticipation → initial frame set이 주어졌을 때, 미래 이벤트를 예측하는 능력을 입증함.
  • Visual Referring Prompting for Grounded Temporal Understanding → 이미지에 prompting 했던 거 똑같이 해도 잘된다.
  • Abstract Visual Reasoning and Intelligence Quotient Text - IQ test
    • Abstract Visual Stimuli → 사람은 추상적이고 모호한 시각적 자극으로 의미를 추론 가능함. 지피티도 가능!
    • Discovery and Association of Parts and Objects → grounded vqa를 이용해서 사전에 정의된 boundary를 활용할 수 있고, 실제 원하는 정보를 index로도 불러올 수 있다…! wow 뿐만 아니라, 그림들 간의 조합도 해준다…!
    • Wechsler Adult Intelligence Scal → 표준 IQ test 중 하나. GPT-4V shows promises in abstract reasoning, answering questions with texts only, symbolic visual inputs, and natural images
    • Raven’s Progressive Matrices → 추상적 추론과 문제 해결 능력을 측정하기 위해 개발된 비언어적 지능 테스트이다. 언어, 문화, 정규교육이 테스트 결과에 미치는 영향을 최소화되도록 설계
  • Emotional Quotient test
    • Read Emotion from Facial Expressions
    • Understand How Visual Content Arouses Emotions→ 사진을 보고 느끼는 감정 파악 task
    • Emotion Conditioned Output → 인식한 감정을 원하는 감정에 맞게 텍스트 생성
    • Emerging Application Highlights → VL 모델은 task마다 finetuning 해야하지만, 4v는 x
  • Spot the Difference
    • 이미지의 구성 요소 식별과 다른 영역은 잘 찾지만, 자세한 설명은 종종 놓친다. 완벽하지 못하지만, 밑에 얘기할 섹션에서 다른 점 찾기 능력은 유용하다.
  • Industry
    • Defect detection → 제조업에서는 CV가 결함 감지에서 중요한 역할 / 하지만 흔하지 않은 제품이나 자세한 instruction이 없을 경우, 정확하지 않거나 충분하지 않은 답변을 얻을 수 있다. → 따라서, 참조 이미지를 포함해주고, instruction을 개선함으로써 좀 더 나은 성능을 기대할 수 있음.
    • Safety Inspection
    • Grocery checkout → 셀프 계산대에서 수동으로 입력하는 거 대신, 이미지 인식을 통해 고객 개입 최소화 하는 장소에서 해당 모델의 잠재력 확인 → 사진 한장만 주는 것보다, 각 상품에 대한 이미지를 카탈로그 형태로 주면 더 잘 detect한다.
    • Medical → 완벽하지는 않지만, 의사의 진단 프로세스를 단축시켜줄 잠재력을 보임
    • Auto Insurance → 보험 처리 자동화
    • Damage evaluation → 자동차 손상 평가 → 수리비 얼마나올지 견적도 추측해주는 경우가 있다….!(예전 교내 창업대회 성과물이랑 흡사… 이렇게 쉽게 구현이 가능하다니..)
    • Insurance reporting → 위의 Damage evaluation을 기반으로 번호판 model 등 json 형태로 insurance reporting 작성 → format 지정이 가능
  • Customized Captioner
    • Photo organization → 잘 식별해서 captioning 해준다. 이를 저장하면 고도로 개인화된 이미지 검색이 가능.
    • Dense captioning w/ segmentation
  • Image Generation → 생성 분야에도 기여할 수 있다.
  • Evaluation of generated images → 생성된 이미지를 text와 매칭시켜서 평가가 가능
  • Prompt generation for image editing → 이미지 편집에 사용하는 text prompt를 생성하거나 revise 가능 → 즉, text2image를 위한 프롬프트를 해당 모델을 통해서 제공 받을 수 있다.
  • Embodied Agent
  • Generate Pointing Outputs → region이 지정된 상황에서 해당 boundary에 있는 구역에 대한 describe이 가능
  • Temporal and Video Understanding → gpt-4v는 이미지를 입력으로 사용하지만 이미지들의 시간적 순서와 비디오 content에 대한 이해도를 평가하는 것이 중요. Real-world event는 시간에 따라 전개되며 AI system의 능력은 이 동적 프로세스를 이해하는 것이 실제 apllication에 매우 중요
    • Multi-image Sequencing → 실제로도 시간 순서에 대한 이해도가 좋음.
    • Video Understanding
      • Temporal ordering → 시간 순서는 시간적 상식의 중요한 요소이고, GPT-4V의 평가에서 필수적인 부분. 시간이 뒤섞인 이미지를 제공하고, 인과관계 및 시간 진행을 식별하는 능력을 측정하는 부분을 포함
      • Temporal anticipation → initial frame set이 주어졌을 때, 미래 이벤트를 예측하는 능력을 입증함.
  • Visual Referring Prompting for Grounded Temporal Understanding → 이미지에 prompting 했던 거 똑같이 해도 잘된다.
  • Abstract Visual Reasoning and Intelligence Quotient Text - IQ test
    • Abstract Visual Stimuli → 사람은 추상적이고 모호한 시각적 자극으로 의미를 추론 가능함. 지피티도 가능!
    • Discovery and Association of Parts and Objects → grounded vqa를 이용해서 사전에 정의된 boundary를 활용할 수 있고, 실제 원하는 정보를 index로도 불러올 수 있다…! wow 뿐만 아니라, 그림들 간의 조합도 해준다…!
    • Wechsler Adult Intelligence Scal → 표준 IQ test 중 하나. GPT-4V shows promises in abstract reasoning, answering questions with texts only, symbolic visual inputs, and natural images
    • Raven’s Progressive Matrices → 추상적 추론과 문제 해결 능력을 측정하기 위해 개발된 비언어적 지능 테스트이다. 언어, 문화, 정규교육이 테스트 결과에 미치는 영향을 최소화되도록 설계
  • Emotional Quotient test
    • Read Emotion from Facial Expressions
    • Understand How Visual Content Arouses Emotions→ 사진을 보고 느끼는 감정 파악 task
    • Emotion Conditioned Output → 인식한 감정을 원하는 감정에 맞게 텍스트 생성
    • Emerging Application Highlights → VL 모델은 task마다 finetuning 해야하지만, 4v는 x
  • Spot the Difference
    • 이미지의 구성 요소 식별과 다른 영역은 잘 찾지만, 자세한 설명은 종종 놓친다. 완벽하지 못하지만, 밑에 얘기할 섹션에서 다른 점 찾기 능력은 유용하다.
  • Industry
    • Defect detection → 제조업에서는 CV가 결함 감지에서 중요한 역할 / 하지만 흔하지 않은 제품이나 자세한 instruction이 없을 경우, 정확하지 않거나 충분하지 않은 답변을 얻을 수 있다. → 따라서, 참조 이미지를 포함해주고, instruction을 개선함으로써 좀 더 나은 성능을 기대할 수 있음.
    • Safety Inspection
    • Grocery checkout → 셀프 계산대에서 수동으로 입력하는 거 대신, 이미지 인식을 통해 고객 개입 최소화 하는 장소에서 해당 모델의 잠재력 확인 → 사진 한장만 주는 것보다, 각 상품에 대한 이미지를 카탈로그 형태로 주면 더 잘 detect한다.
    • Medical → 완벽하지는 않지만, 의사의 진단 프로세스를 단축시켜줄 잠재력을 보임
    • Auto Insurance → 보험 처리 자동화
    • Damage evaluation → 자동차 손상 평가 → 수리비 얼마나올지 견적도 추측해주는 경우가 있다….!(예전 교내 창업대회 성과물이랑 흡사… 이렇게 쉽게 구현이 가능하다니..)
    • Insurance reporting → 위의 Damage evaluation을 기반으로 번호판 model 등 json 형태로 insurance reporting 작성 → format 지정이 가능
  • Customized Captioner
    • Photo organization → 잘 식별해서 captioning 해준다. 이를 저장하면 고도로 개인화된 이미지 검색이 가능.
    • Dense captioning w/ segmentation
  • Image Generation → 생성 분야에도 기여할 수 있다.
  • Evaluation of generated images → 생성된 이미지를 text와 매칭시켜서 평가가 가능
  • Prompt generation for image editing → 이미지 편집에 사용하는 text prompt를 생성하거나 revise 가능 → 즉, text2image를 위한 프롬프트를 해당 모델을 통해서 제공 받을 수 있다.
  • Embodied Agent

'VLM Paper Review' 카테고리의 다른 글

PaLI-3  (0) 2024.06.10
LLaVA 1.5 - Improved Baselines with Visual Instruction Tuning  (0) 2024.06.09
BLIP2  (0) 2024.06.09
BLIP  (0) 2024.06.09
LLaVA  (0) 2024.06.09