1. ScreenAI
- ScreenAI 9cde7d1eaa974ff59a30095ffd812860.pdf
- 해당 모델을 infographics QA benchmarks 평가 부분에서 Mobile Screen QA 실험 대조 모델로 보면 어떨까?
- 해당 논문에서 제시하는 Screen Schema 형식에 있는 픽토그램(아이콘, 화살표 등) 고려 -> icon classifier 활용
- LLM Palm2를 활용한 synthetic text 생성 후, Human validation
- OCR 모듈을 활용했을 때, QA tasks에서 5%까지 성능 향상
2. WebVLN
- WebVLN 20a2828a61254962a3a1f7fba6279c50.pdf
- LLM QA 생성: BLIP-2 → 웹사이트 이미지를 캡션으로 변환하여 LLM이 시각적 정보 식별
(아이콘이나 로고 식별이 어려워질 듯) - QA 생성을 위한 Rule 지정 -> 프롬프트에서 참고할 부분
'Data Review' 카테고리의 다른 글
Unilr (0) | 2024.06.10 |
---|---|
LVLM-eHub: A Comprehensive EvaluationBenchmark for Large Vision-Language Models (0) | 2024.06.10 |