Data Review 3

Unilr

0. AbstractExisting information retrieval (IR): 현재는 단순하게 such as searching for images with text descriptions, searching for a news article with a headline image, or finding a similar photo with a query image 만 가능한 상황Unilr은 8개의 모달리티 간의 retrieval task를 가능하게 a unified instruction-guided multimodal retriever를 수행이를 위해서 10개의 개별적인 멀티모달 IR 데이터셋을 학습M-BEIR(a multimodal retrieval benchmark with comprehensi..

Data Review 2024.06.10

LVLM-eHub: A Comprehensive EvaluationBenchmark for Large Vision-Language Models

0. AbstractThis paper presents a comprehensive evaluation of 4 publicly available large multimodal models by building an LVLM evaluation Hub 5 (LVLM-eHub)8개의대표적인 LVLMs(InstructBLIP, MiniGPT-4)로 구성되며, which are thoroughly evaluated by a quantitative 7 capability evaluation and an online arena platformThe former evaluates 6 cat- egories of multimodal capabilities of LVLMs such as visual question a..

Data Review 2024.06.10

ScreenAI & WebVLN

1. ScreenAIScreenAI 9cde7d1eaa974ff59a30095ffd812860.pdf해당 모델을 infographics QA benchmarks 평가 부분에서 Mobile Screen QA 실험 대조 모델로 보면 어떨까?해당 논문에서 제시하는 Screen Schema 형식에 있는 픽토그램(아이콘, 화살표 등) 고려 -> icon classifier 활용LLM Palm2를 활용한 synthetic text 생성 후, Human validationOCR 모듈을 활용했을 때, QA tasks에서 5%까지 성능 향상2. WebVLNWebVLN 20a2828a61254962a3a1f7fba6279c50.pdfLLM QA 생성: BLIP-2 → 웹사이트 이미지를 캡션으로 변환하여 LLM이 시각적 정..

Data Review 2024.06.10