Data Review

ScreenAI & WebVLN

코딩하는머글 2024. 6. 10. 00:02

1. ScreenAI

  • ScreenAI 9cde7d1eaa974ff59a30095ffd812860.pdf
  • 해당 모델을 infographics QA benchmarks 평가 부분에서 Mobile Screen QA 실험 대조 모델로 보면 어떨까?
  • 해당 논문에서 제시하는 Screen Schema 형식에 있는 픽토그램(아이콘, 화살표 등) 고려 -> icon classifier 활용
  • LLM Palm2를 활용한 synthetic text 생성 후, Human validation
  • OCR 모듈을 활용했을 때, QA tasks에서 5%까지 성능 향상

2. WebVLN

  • WebVLN 20a2828a61254962a3a1f7fba6279c50.pdf
  • LLM QA 생성: BLIP-2 → 웹사이트 이미지를 캡션으로 변환하여 LLM이 시각적 정보 식별
    (아이콘이나 로고 식별이 어려워질 듯)
  • QA 생성을 위한 Rule 지정 -> 프롬프트에서 참고할 부분

'Data Review' 카테고리의 다른 글

Unilr  (0) 2024.06.10
LVLM-eHub: A Comprehensive EvaluationBenchmark for Large Vision-Language Models  (0) 2024.06.10