ScreenAI & WebVLN

Data Review

ScreenAI & WebVLN

코딩하는머글 2024. 6. 10. 00:02

1. ScreenAI

ScreenAI 9cde7d1eaa974ff59a30095ffd812860.pdf
해당 모델을 infographics QA benchmarks 평가 부분에서 Mobile Screen QA 실험 대조 모델로 보면 어떨까?
해당 논문에서 제시하는 Screen Schema 형식에 있는 픽토그램(아이콘, 화살표 등) 고려 -> icon classifier 활용
LLM Palm2를 활용한 synthetic text 생성 후, Human validation
OCR 모듈을 활용했을 때, QA tasks에서 5%까지 성능 향상

2. WebVLN

WebVLN 20a2828a61254962a3a1f7fba6279c50.pdf
LLM QA 생성: BLIP-2 → 웹사이트 이미지를 캡션으로 변환하여 LLM이 시각적 정보 식별
(아이콘이나 로고 식별이 어려워질 듯)
QA 생성을 위한 Rule 지정 -> 프롬프트에서 참고할 부분

'Data Review' 카테고리의 다른 글

Unilr (0)	2024.06.10
LVLM-eHub: A Comprehensive EvaluationBenchmark for Large Vision-Language Models (0)	2024.06.10

현재글ScreenAI & WebVLN

코딩하는 머글

AI 및 연구관련 논문을 정리하는 곳입니다.

Today :
Yesterday :

티스토리툴바