Abstractclip은 학습한 데이터의 text spot의 경향성이 큼이미지의 visual semantic을 무시하고, text 내의 텍스트를 복제하는 등 text에만 초점In LAION-2B, parrot (spell, text embedded in images) 캡셥의 비율이 높음.LAION-style image-text similarity를 측정 → visual text가 지배적인 영향실제로 parrot captions가 text spotting bias를 만들어내는지 살펴보기 위해서 parrot-caption-oriented criteria에 따라서 curated LAION subsets를 이용한 CLIP을 학습시킴.이는 visual representation에 좋지 않았음따라서, clip-li..