분류 전체보기 15

Pix2struct

IntroductionVQA나 image captioning같은 다른 채널로 구분되는 테스크가 집중되어 왔지만, visually-situated language는 더 퍼져있는 방식이고, 이러한 modality가 서로 섞이고 상호작용한다.Visually situated language 이해에 대한 이전의 연구는 산재되어 있는데, 주 초점이 전형적으로 가능한 inputs과 tools에 대한 task-specific한 복잡한 조합뿐이다.Document-understanding models은 외부 OCR systemsUI-understanding models는 platform-specific structural metadataDiagram-understanding models는 diagram parseswe p..

Vision Encoder 2024.06.09

BLIP2

Multimodal 분야에서도 Large web dataset으로 학습하는 방법론이 증가하면서, LLM과 학습된 Image encoder를 함께 사용하는 시도가 지속됨.그러나 LLM은 학습 과정에서 이미지 정보를 전혀 받지 못했기 때문에, LLM에 이미지 정보를 전달하여 image, text 데이터를 align 해주는 단계가 꼭 선행돼야 함.BLIPv2는 frozen image encoder와 LLM 모델을 연결시켜주는 새로운 방법인 Q-former를 제시frozen된 모델들을 가져와서 파라미터 효율도 좋고, 거대 모델의 성능 좋은 representation learning까지 활용해 다양한 VL task의 SOTA에 등극 2줄 요약1. Encoder에 frozen Pretrained Model을 도입하..

VLM Paper Review 2024.06.09

BLIP

2줄 요약기존 VL-Pretraining 모델을 사용한 web data의 noisy caption 문제를 CapFilt 구조 제시를 통해 해결Text Generation, Image-text retrieval task를 모두 잘하는 새로운 모델 구조 제시(MED)Abstract & IntroductionCLIP, ALIGN의 등장으로 Large web scale 데이터로 VLP(Vision-Language Pretraining) 모델을 학습시키기 시작그러나 Large web scale 데이터의 특성상 image와 text 데이터에 noise가 많다는 한계점이 존재2022년 1월에 등장한 BLIP은 잘못된 캡션을 걸러내고, 새로운 캡션을 사용하여 데이터 셋을 bootstrapping하는 CapFilt 구조..

VLM Paper Review 2024.06.09

LLaVA

이전에는 Flamingo, BLIP-2 등 시각 정보를 인식해 질문에 답하고 채팅을 이어가는 연구가 있었음. 단순한 image-text pair로 데이터셋이 단순하게 이루어짐.하지만, LLaVA는 이미지를 포함한 지시문 데이터 형식인 visual instruction-following data를 새롭게 제안함. 학습된 LLM인 Vicuna 모델로 파라미터를 초기화하고, 이를 CLIP vision encoder와 연결 → 이 덕분에 기존 LLM 모델의 언어능력을 충분히 leverage 하면서 이미지 정보를 잘 이해하고 대화를 이어갈 수 있는 모델이 됨.‘이미지 기반 챗봇 형식의 대화가 가능한 멀티모달 모델 LLaVA’0. Abstract최근에는 GPT4와 같은 모델로 instruction-following..

VLM Paper Review 2024.06.09

The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

1. Motivation and Overview 지금까지 LLMs 은 엄청난 발전이 있었습니다. 지금까지는 Visual encoder를 LLM과 일치하도록 fine tuning 하거나 vision-language model을 사용해서 text를 LLMs에 직접 넣어주는 방식을 사용해왔습니다.하지만 이 방식으로는 제한된 모델이나 데이터 스케일 제한으로 인해 성능에 한계. 이 논문에서 SOTA LLM인 GPT-4 기반으로 구축되고, 대규모 데이터로 학습된 최신 LMM인 GPT-4V를 소개What are GPT4V’s supported inputs and working modes? GPT-4V는 입력 이미지, 서브 이미지, 텍스트, 장면 텍스트, visual point등을 섞은 input을 이해하고 처리하는데..

VLM Paper Review 2024.06.09