ICML, 2022, ciation 632 BLIP : Bootstraping Language-Image pre-training for unified vision-language understanding and generation Introduction vision-language pre-training의 두가지 기존 한계점 모델 관점 : 기존 VL-pretraining 모델들은 대부분 encoder-based거나 encoder-decoder based이다. 구조적 한계로 인해 특정 task(image understanding, text generation)등에만 강한 모습을 보였다.encoder-decoder model : image-text retrieval task에 약함 encoder-based ..