분류 전체보기 15

Unilr

0. AbstractExisting information retrieval (IR): 현재는 단순하게 such as searching for images with text descriptions, searching for a news article with a headline image, or finding a similar photo with a query image 만 가능한 상황Unilr은 8개의 모달리티 간의 retrieval task를 가능하게 a unified instruction-guided multimodal retriever를 수행이를 위해서 10개의 개별적인 멀티모달 IR 데이터셋을 학습M-BEIR(a multimodal retrieval benchmark with comprehensi..

Data Review 2024.06.10

Parrot Captions Teach CLIP to Spot Text

Abstractclip은 학습한 데이터의 text spot의 경향성이 큼이미지의 visual semantic을 무시하고, text 내의 텍스트를 복제하는 등 text에만 초점In LAION-2B, parrot (spell, text embedded in images) 캡셥의 비율이 높음.LAION-style image-text similarity를 측정 → visual text가 지배적인 영향실제로 parrot captions가 text spotting bias를 만들어내는지 살펴보기 위해서 parrot-caption-oriented criteria에 따라서 curated LAION subsets를 이용한 CLIP을 학습시킴.이는 visual representation에 좋지 않았음따라서, clip-li..

Vision Encoder 2024.06.10

PaLI-3

IntroPaLI-3는 (기존 PaLI, PaLI-X 대비)규모가 작은 모델링에 집중(5B parameters와 사전학습된 backbone)3 min components:Constrastive pretraining of image encoder on web-scale image-text dataImproved dataset mixture for PaLI multimodal trainingTraining at higher resolutionsnew SOTA results: visually-situated text understanding과 object localization을 요구하는 taskSigLIP을 이용해서 SOTA multilingual constrastive vision model (2B par..

VLM Paper Review 2024.06.10

LVLM-eHub: A Comprehensive EvaluationBenchmark for Large Vision-Language Models

0. AbstractThis paper presents a comprehensive evaluation of 4 publicly available large multimodal models by building an LVLM evaluation Hub 5 (LVLM-eHub)8개의대표적인 LVLMs(InstructBLIP, MiniGPT-4)로 구성되며, which are thoroughly evaluated by a quantitative 7 capability evaluation and an online arena platformThe former evaluates 6 cat- egories of multimodal capabilities of LVLMs such as visual question a..

Data Review 2024.06.10

LLaVA-med

0. Abstract일반 도메인의 비전-언어 모델들은 여전히 생명과학 이미지를 이해하고 대화하는 데 있어 세련됨이 부족합니다. 이 논문에서는 생명과학 이미지에 대한 개방형 연구 질문에 답할 수 있는 비전-언어 대화형 assistant that can answer open-ended research question of biomedical images를 트레이닝하는 비용 효율적인 접근법을 제안합니다.주요 아이디어는 PubMed Central에서 추출한 대규모, 광범위한 생명과학 그림-캡션 데이터셋을 활용하고, GPT-4를 사용하여 캡션에서 개방형 지시-따르기 데이터를 자체 지시하며, 그 후에 새로운 커리큘럼 학습 방법을 사용하여 대형 일반 도메인 비전-언어 모델을 미세 조정구체적으로, 모델은 먼저 그림-캡..

카테고리 없음 2024.06.10

ScreenAI & WebVLN

1. ScreenAIScreenAI 9cde7d1eaa974ff59a30095ffd812860.pdf해당 모델을 infographics QA benchmarks 평가 부분에서 Mobile Screen QA 실험 대조 모델로 보면 어떨까?해당 논문에서 제시하는 Screen Schema 형식에 있는 픽토그램(아이콘, 화살표 등) 고려 -> icon classifier 활용LLM Palm2를 활용한 synthetic text 생성 후, Human validationOCR 모듈을 활용했을 때, QA tasks에서 5%까지 성능 향상2. WebVLNWebVLN 20a2828a61254962a3a1f7fba6279c50.pdfLLM QA 생성: BLIP-2 → 웹사이트 이미지를 캡션으로 변환하여 LLM이 시각적 정..

Data Review 2024.06.10

LLaVA 1.5 - Improved Baselines with Visual Instruction Tuning

1. Abstract Fully connected vision-language cross-modal connector(in llava)는 강력하고, 데이터 효율적이다.CLIP-ViT-L-336px with an MLP projection and adding academic-task-oriented VQA data with simple response formatting prompts을 이용해서, 최신 벤치마크에 대한 강력한 베이스라인을 세울 수 있었다.Our final 13B checkpoint uses merely 1.2M publicly available data, and finishes full training in ∼1 day on a single 8-A100 node2. IntroductionL..

VLM Paper Review 2024.06.09

VeClip: FROM SCARCITY TO EFFICIENCY: IMPROVING CLIP TRAINING VIA VISUAL-ENRICHED CAPTIONS

AbstractCLIP 같은 VL 모델 사전학습에 웹 크롤링된 데이터셋의 중요성이 높지만, 크롤링된 AltText는 noisy, irrelevant to image한 경우에 image-text alignment에 치명적일 수 있음.기존 연구들은 LLMs을 사용한 캡션 rewrite을 위한 방법들을 CC3M 혹은 CC12M 같은 소규모 정제된 데이터셋에서 진행. -> 대규모 웹에서 캡션하는 데 noisy와 randomness에 제약 발생본 연구는 위 제약 해결을 위해 data quality와 data variety 측면에서 제약을 해결하고자 함.Visual concept을 활용하여 캡션에 interaction -> To improve data qualityMixed training scheme(AltTex..

Vision Encoder 2024.06.09