IntroductionVQA나 image captioning같은 다른 채널로 구분되는 테스크가 집중되어 왔지만, visually-situated language는 더 퍼져있는 방식이고, 이러한 modality가 서로 섞이고 상호작용한다.Visually situated language 이해에 대한 이전의 연구는 산재되어 있는데, 주 초점이 전형적으로 가능한 inputs과 tools에 대한 task-specific한 복잡한 조합뿐이다.Document-understanding models은 외부 OCR systemsUI-understanding models는 platform-specific structural metadataDiagram-understanding models는 diagram parseswe p..