Vision Encoder 3

Parrot Captions Teach CLIP to Spot Text

Abstractclip은 학습한 데이터의 text spot의 경향성이 큼이미지의 visual semantic을 무시하고, text 내의 텍스트를 복제하는 등 text에만 초점In LAION-2B, parrot (spell, text embedded in images) 캡셥의 비율이 높음.LAION-style image-text similarity를 측정 → visual text가 지배적인 영향실제로 parrot captions가 text spotting bias를 만들어내는지 살펴보기 위해서 parrot-caption-oriented criteria에 따라서 curated LAION subsets를 이용한 CLIP을 학습시킴.이는 visual representation에 좋지 않았음따라서, clip-li..

Vision Encoder 2024.06.10

VeClip: FROM SCARCITY TO EFFICIENCY: IMPROVING CLIP TRAINING VIA VISUAL-ENRICHED CAPTIONS

AbstractCLIP 같은 VL 모델 사전학습에 웹 크롤링된 데이터셋의 중요성이 높지만, 크롤링된 AltText는 noisy, irrelevant to image한 경우에 image-text alignment에 치명적일 수 있음.기존 연구들은 LLMs을 사용한 캡션 rewrite을 위한 방법들을 CC3M 혹은 CC12M 같은 소규모 정제된 데이터셋에서 진행. -> 대규모 웹에서 캡션하는 데 noisy와 randomness에 제약 발생본 연구는 위 제약 해결을 위해 data quality와 data variety 측면에서 제약을 해결하고자 함.Visual concept을 활용하여 캡션에 interaction -> To improve data qualityMixed training scheme(AltTex..

Vision Encoder 2024.06.09

Pix2struct

IntroductionVQA나 image captioning같은 다른 채널로 구분되는 테스크가 집중되어 왔지만, visually-situated language는 더 퍼져있는 방식이고, 이러한 modality가 서로 섞이고 상호작용한다.Visually situated language 이해에 대한 이전의 연구는 산재되어 있는데, 주 초점이 전형적으로 가능한 inputs과 tools에 대한 task-specific한 복잡한 조합뿐이다.Document-understanding models은 외부 OCR systemsUI-understanding models는 platform-specific structural metadataDiagram-understanding models는 diagram parseswe p..

Vision Encoder 2024.06.09