논문 요약

논문 "Enhancing Vision-Language Pre-Training with Jointly Learned Questioner and Dense Captioner"는 큰 규모의 사전 훈련된 다중 모달 모델을 활용하여 비전 언어 전처리를 개선하는 새로운 방법을 제안합니다. 이 연구는 기존의 비전 언어 사전 훈련 방법이 주로 이미지-텍스트 쌍에 집중하면서, 이미지와 언어 모달리티 간의 세부적인 정렬과 이해를 간과하고 있다는 문제점에 초점을 맞춥니다. 이를 해결하기 위해, 연구자들은 질문 생성자(Questioner)와 밀도 높은 캡셔너(Dense Captioner)를 공동으로 학습하는 Joint QA and DC Generation (JADE) 방법을 개발했습니다. 이 방법은 사전 훈련된 다중 모달 모델과 웹에서 크롤링된 이미지-텍스트 쌍을 이용해 VQA(Visual Question Answering)와 DC(Dense Captioning) 데이터를 자동으로 생성하고 필터링합니다.

이 연구의 핵심 기여는 다음과 같습니다:

  1. JADE 방법: VQA와 DC 데이터를 효율적으로 생성하고 필터링할 수 있는 방법을 제공합니다. 이를 통해 사전 훈련에 필요한 고품질 데이터를 대규모로 수집할 수 있습니다.
  2. 새로운 데이터셋 CC3M-QA-DC: Conceptual Caption (CC3M) 데이터셋에서 파생된 새로운 데이터셋으로, 다양한 질문 유형과 풍부한 캡션을 포함합니다.
  3. 실험 결과: JADE를 사용하여 사전 훈련된 모델들은 다양한 하위 작업에서 성능이 향상됨을 보여줍니다. 이는 AI Generated Data (AIGD)의 잠재력과 다중 모달 모델의 일반화 능력을 강화하는 방법을 제시합니다.

전반적으로, 이 논문은 비전 언어 사전 훈련에서의 문제를 인식하고, 이를 해결하기 위한 실질적인 방법과 데이터셋을 제공합니다. 이를 통해 더 정교한 모델 학습과 다양한 작업에 대한 성능 향상을 기대할 수 있습니다.


연구 목표

Figure 1에서는 전통적인 비전-언어 사전 훈련(VLP) 패러다임과 이 연구에서 제안된 방법을 비교하여 보여줍니다.

  1. 상단부: 전통적인 VLP 방법이 제시되어 있습니다. 여기에는 원본 CC3M 데이터셋(회색으로 표시됨)이 사용되며, 이 데이터셋은 이미지 캡션 작업에 중점을 둡니다. 이 이미지 캡션 부분에는 다음과 같은 작업들이 포함됩니다:
    • ITC (Image Text Contrastive Learning): 이미지와 텍스트 간의 대조적 학습.
    • ITM (Image Text Matching): 이미지와 텍스트 간의 일치 여부를 평가하는 작업.
    • IC (Image Captioning): 이미지에 대한 설명이나 캡션을 생성하는 작업.
    • IMLM (Image-conditioned Masked Language Modeling): 이미지를 조건으로 하는 마스크된 언어 모델링.
    이러한 작업들은 이미지와 관련된 텍스트를 이해하고 연결하는데 중점을 둡니다.
  2. 하단부: 연구자들이 제안한 VLP 방법을 나타냅니다. 이 부분에서는 QA (질문 대답) 쌍과 Dense Captioning (밀도 높은 캡셔닝) 작업이 추가되어 있습니다. 이는 연구자들이 개발한 Joint QA and DC Generation (JADE) 방법을 통해 자동으로 생성되고 필터링된 데이터를 사용합니다. 이렇게 함으로써, 모델은 이미지와 관련된 더 풍부하고 세부적인 언어 정보를 처리하고 이해할 수 있습니다​​.

이 논문의 저자는 기존의 비전-언어 사전 훈련(VLP) 방법의 주요한 단점으로 다음과 같은 점들을 지적합니다:

  1. 세부적인 특징 정렬 부족: 대부분의 기존 방법들은 웹에서 수집된 이미지-텍스트 쌍을 사전 훈련 데이터로 사용합니다. 이러한 접근법은 비전과 언어 모달리티 간의 세부적인 특징 정렬과 상세한 이해를 간과합니다. 즉, 이미지와 언어 표현의 상세한 이해가 필요한데, 기존 방법들은 이를 충분히 고려하지 못합니다.
  2. 시간 소모적인 데이터 수집: VQA(시각적 질문 답변)와 DC(밀도 높은 캡셔닝)을 사전 훈련에 통합하는 것은 위에서 언급된 문제를 해결할 수 있지만, 이미지-질문-답변 및 이미지-위치-캡션 트리플릿을 수집하는 것은 도전적이고 시간 소모적입니다​​.

결론적으로, 기존 VLP 방법들은 이미지와 언어 사이의 미묘한 연결과 정렬을 충분히 고려하지 않으며, 이를 해결하기 위한 데이터 수집이 어렵다는 문제가 있습니다. 이 논문은 이러한 단점들을 극복하기 위한 방법을 제안합니다.


제안하는 방법

논문에서 제안하는 방법은 "Joint QA and DC Generation (JADE)"라고 불리며, 대규모 사전 훈련된 다중 모달 모델과 공개 이미지-텍스트 데이터셋을 활용하여 자동으로 VQA(시각적 질문 답변) 및 DC(밀도 높은 캡셔닝) 데이터를 생성하고 필터링하는 새로운 방식입니다. JADE 방법을 사용함으로써 고품질의 사전 훈련 데이터를 충분한 양으로 확보할 수 있습니다. 이러한 데이터는 멀티태스크 사전 훈련에 공동으로 활용될 수 있으며, 이는 성능 향상으로 이어집니다. JADE 방법은 세 단계로 요약될 수 있습니다​​. 이 방법의 핵심은 큰 규모의 사전 훈련된 모델을 사용하여 자동으로 데이터를 생성하고 필터링하는 것이며, 이를 통해 더 풍부하고 다양한 VQA 및 DC 데이터를 생성하여 비전-언어 모델의 사전 훈련에 활용합니다. 이는 기존의 VLP 방법들이 가진 세부적인 특징 정렬 부족과 시간 소모적인 데이터 수집 문제를 해결하는 데 기여합니다.

 

Figure 2는 "Joint QA and DC Generation (JADE)" 방법의 전체 파이프라인을 설명합니다. 이 방법은 생성기(generator) 모델과 필터(filter) 모델을 포함합니다.

  1. 훈련 단계 (상단): 생성기 모델은 멀티태스크 방식으로 미세 조정됩니다. 이 단계에서는 다양한 작업들을 동시에 학습시키며, 각 작업에 대한 모델의 성능을 향상시킵니다. 한편, 필터 모델은 일반적인 VQA(시각적 질문 답변) 모델로 훈련됩니다.
  2. 추론 단계 (하단): 주어진 프롬프트에 따라 생성기 모델은 먼저 경계 상자(bounding boxes)에 따라 밀도 높은 캡션을 생성합니다. 이후, 생성기 모델은 한 번에 하나씩 QA(질문-답변) 쌍을 생성합니다. 그 동안 필터 모델은 생성된 질문에 대한 답변을 예측합니다. 일치하는 QA 쌍과 밀도 높은 캡션은 유지됩니다.

 이 데이터셋은 JADE 방법을 사용하여 CC3M 데이터셋에서 파생된 QA(질문-답변) 및 DC(밀도 높은 캡셔너) 데이터를 생성하여 만들어졌습니다. 이 과정에서는 먼저 바텀업(bottom-up) 객체 탐지 모델을 사용하여 객체 경계 상자 좌표를 추출합니다. CC3M-QA-DC 데이터셋은 이미지당 평균적으로 약 30개의 QA 쌍과 12개의 밀도 높은 캡션을 포함하며, 다양한 질문 유형(예: 무엇, 어떻게, 어디서, 이진 등)과 풍부한 캡션 내용을 커버합니다. 이 데이터셋은 원본 이미지-텍스트 데이터셋이나 재생성된 이미지-캡션 데이터셋과 함께 사용되어 더 나은 성능을 달성할 수 있습니다. 이 데이터셋에 대한 추가 예시와 자세한 정보는 부록 A에서 찾아볼 수 있으며, CC3M-QA-DC 데이터셋은 공개적으로 접근 가능합니다​​.

CC3M-QA-DC 데이터셋의 도입은 VLP 사전 훈련 과정에서 세부적인 이미지와 언어 모달리티 간의 정렬을 개선하고, 더 깊이 있는 이미지 이해와 언어 표현을 가능하게 하는 데 중점을 둡니다. 이는 사전 훈련된 비전-언어 모델의 성능 향상에 기여할 수 있습니다.

 

Bounding Box의 검출은 "In Defense of Grid Features for Visual Question Answering"의 논문에서 제안한 모델을 사용하였고, DC, VQ 모델은 VALOR를 사용하였다.

 

CC3M 데이터 세트에 대하여 QA(Question & Answering), DC(Dense Captioning) 데이터를 추가하여 모델을 Fine-Tuning하거나, Zero-Shot Learning을 적용하였더니 모델의 성능이 증가하였더라.

+ Recent posts