Video Captioning 최신 연구 동향 [1]

IDNHBTFM 2023. 11. 27. 15:23

2023. 11. 27. 15:23

먼저 2016년부터 2021년까지의 Video Captiong을 Review한 논문 "Video Captioning: a comparative review of where we are and which could be the route" (2023-04)를 기반으로 기존 연구들에 대한 Video Captioning 연구의 목적과 방향을 정리한다.

연구 동향

Video captioning의 개요 및 정의
Video captioning의 주요 연구 분야
Video captioning의 최근 연구 동향

Application 영역

각 Application 영역에서 Video captioning의 연구 사례 & 활용 가능성
Surveillance system에 적용된 Video captioning 연구 사례 & 활용 가능성

1. Video captioning의 개요 및 정의

Video Explanation

주어진 영상의 내용을 한 눈에 알아볼 수 있도록 정리/요약/분류해주는 모든 방법들을 의미한다. 주로 사용되는 방식들은 다음과 같다.

Dense Video captioning : 주어진 영상에 대해서 매 프레임마다 Caption을 생성하는 기술
Video Captioning : 주어진 영상을 설명하는 하나의 Caption을 생성하는 기술
Classification : 주어진 영상을 특정 카테고리로 분류하는 기술

Image vs Video

이미지와 비디오 캡션의 차이점은 비디오에서는 이미지 간의 의존성이 존재한다는 것이다. 컨텐츠의 의미를 이해하기 위해 전체 시퀀스(또는 적어도 일부)를 처리하여 이를 설명하는 문장을 생성해야 한다. 어떤 장면을 이해하기 위해서는 일정 시퀀스동안의 정보가 누적되어야만 하는 정보들이 있다. 보통 캡션에 명사로 표현되는 객체, 장소가 아닌 동사, 동명사로 표현되어지는 행동 정보들이 그렇다. 결국 Image 수준에서는 한계를 가지는 이 정보를 올바르게 이해하기 위해서는 Video 수준의 해석이 필수적이다.

VC 연구의 정보 특징 기반 접근 방식

시간적 단서 활용 (Exploiting Temporal Cues):

정의 : 비디오 내 시간적 순서와 관계를 분석하여 중요한 정보를 추출하는 방식입니다.
특징 : 시간적 변화를 감지하여 사건의 발전이나 변화를 이해합니다.
예시 : 비디오에서 인물이 움직이는 경로나 사물의 변화를 추적하여 그 순서대로 사건을 서술하는 경우.

움직임 (Motion):

정의 : 비디오 내의 객체나 인물의 움직임을 감지하고 분석하는 방법입니다.
특징 : 동적인 환경에서의 사물이나 인물의 움직임을 중점적으로 캡처합니다.
예시 : 카메라 앞에서 춤추는 사람의 동작을 분석하여 이를 텍스트로 서술하는 경우.

행동 인식 (Action Recognition):

정의: 비디오 내의 인물이 수행하는 구체적인 행동을 인식하고 분류하는 기술입니다.
특징: 특정 행동의 패턴을 인식하여 무엇을 하고 있는지를 파악합니다.
예시: 운동 경기 비디오에서 선수들의 특정 행동(예: 슛, 패스)을 인식하고 이를 설명하는 경우.

사람 궤적 분석 (People Trajectories):

정의: 비디오에서 사람들의 이동 경로를 추적하고 분석하는 방식입니다.
특징: 개별 인물의 이동 패턴과 경로를 중점적으로 관찰합니다.
예시: 쇼핑몰의 보안 카메라 비디오에서 방문객들의 이동 경로를 분석하는 경우.

이벤트 감지 (Events Detection):

정의: 비디오 내에서 발생하는 특정 사건이나 활동을 감지하는 기술입니다.
특징: 중요한 사건이나 활동을 식별하여 이를 강조합니다.
예시: 도시 교통 모니터링에서 교통 사고와 같은 특정 이벤트를 감지하는 경우.

광학 흐름 (Optical Flow):

정의: 비디오 내 객체나 사람의 움직임을 픽셀 변화로 감지하는 방법입니다.
특징: 시각적인 움직임을 연속적인 이미지 시퀀스로부터 추출합니다.
예시: 차량이나 사람들의 움직임을 비디오에서 연속적인 이미지로 분석하는 경우.

오디오 (Audio):

정의: 비디오의 사운드 트랙을 분석하여 중요한 오디오 정보를 추출하는 방식입니다.
특징: 음성, 음악, 배경 소리 등 오디오 신호를 분석합니다.
예시: 영화에서 대화나 배경 음악을 분석하여 비디오의 내용을 서술하는 경우.

음성 인식 (Speech Recognition):

정의: 비디오 내의 음성 데이터를 텍스트로 변환하는 기술입니다.
특징: 대화나 설명 등의 음성을 인식하여 이를 텍스트로 전환합니다.
예시: 뉴스 방송에서 앵커의 대화를 텍스트로 변환하여 내용을 서술하는 경우.

위와 같은 특징 기반의 접근 방식에 딥러닝 모델의 구조 및 설계, 사용된 데이터셋, 성능 측정 및 평가 방식의 대한 설명을 함께하여 다양한 기존 연구들을 분석하고자 한다.

2. Problem definition (문제 정의)

VC의 주요 목표는 컴퓨터가 영상에서 일어나는 일을 이해하고 그 상황과 해당 자연어로 이루어진 캡션 사이의 견고한 관계를 구축할 수 있도록 하는 것이다. VC는 영상의 내용을 설명하기 위한 일련의 자연어 문장을 생성하는 자동화된 작업으로 볼 수 있다.

VC 작업을 공식화하면 다음과 같다. 데이터 세트 D에서 (xs, ys) 쌍이 주어진 경우, xs는 이미지의 집합 또는 시퀀스 xs1, xs2, ..., xsn이고 ys는 단어의 시퀀스 ys = (w1, w2, ..., wm)으로 xs의 내용을 설명한다. 이 경우 D에 있는 모든 쌍 (xs, ys)에 대해 각 이미지 시퀀스 xs에 해당하는 설명 ys의 가장 높은 확률을 찾는 모델을 의미한다. 일반적인 VC 작업에 대한 구조는 다음과 같다.

적절한 길이의 xs를 찾는 방법은?
큰 특징의 변화? 새로운 객체의 등장?

Video Captioning: a comparative review of where we are and which could be the route

https://arxiv.org/pdf/2204.05976.pdf

보통 VC를 해결하는 연구들은 인코더-디코더 프레임워크를 사용한다. 인코더는 비디오의 특징을 추출하고, 디코더는 이러한 특징을 사용하여 텍스트 설멸을 생성한다. 위의 그림의 인코더에서 특징을 얻기 위한 다양한 기술이 나타나있다. CNN은 합성곱 신경망으로 ResNet과 같은 모델을 통해 특징을 추출한다. C3D는 3D 합성곱 신경망으로 프레임별로 2차원 Tensor로 변환하여 특징을 추출한 뒤 시간축에 따라 연결하는 방식과 한번에 연결된 시퀀스-이미지 데이터를 사용하여 특징을 추출하는 방식이 있다. 그 외 에도 Audio, Optical flow, Object detection, Attention 등 다양한 특징이 사용되어진다.

사전 처리 (Preprocessing)

주어진 동영상의 각 요소를 컴퓨터 모델이 처리할 수 있도록 바꿔주는 작업(벡터화)이 필요하다. 과거에는 동영상의 각 모달리티마다 특성을 고려한 변환을 진해앟여 임베딩 벡터를 얻었다.

텍스트 → FastText
이미지 →ResNet

현재에는 딥러닝의 발전에 따라, Transformer 구조 기반의 임베딩 추출이 가장 좋은 성능을 보인다.

텍스트 → BERT, RoBERTa
이미지 →ViT, BEiT
텍스트 & 이미지 복합 →LXMERT, VL-BEiT

데이터셋 (Datasets)

비디오 캡셔닝에 사용되는 공개 데이터세트들은 주로 요리 또는 영화 클립과 관련이 있다. 특정 태스크에 대한 작업을 하기 위해서는 따로 검색하거나 수집이 필요할 것이다.

MSVD (MS-Video YoutubeClips):

2011년에 제안된 최초의 데이터셋 중 하나로, 1,970개의 클립과 70,028개의 문장(평균 8.7단어)이 포함됨.
전체 비디오 지속 시간은 5.3시간이며, 13,010개의 다른 용어가 있음.
과거에 다운로드 가능했으나 현재는 공식 Microsoft 사이트에서 링크가 비활성화됨.

TRECvideo Data (TRECViD):

뉴스, 회의, 군중, 그룹화, 교통, 음악, 스포츠, 동물, 사람과 객체의 상호작용과 관련된 비디오로 구성됨.
140개의 비디오가 있으며, 각 비디오에는 20개의 세그먼트가 있음.
공식 사이트에서 이용 가능하며, 클립과 주석은 매년 다양한 작업을 위해 업데이트됨.

TACoS-MultiLevel:

TACoS 데이터셋에 기반을 둔 것으로, 다양한 요리에 대한 185개의 비디오와 총 52,478개의 문장을 포함함.
공식 사이트를 통해 다운로드 가능하며, MPII Cooking 2 데이터셋과 연관됨.

Youtube2Text:

MSVD의 하위 집합으로, 주로 영어를 사용하며, 훈련 및 테스트를 위해 인접 비디오에 대한 고유한 분할을 제안함.
MSVD와 달리, 파생된 영어 말뭉치는 웹사이트에서 찾을 수 있음.

MPII-Movie Description corpus (MPII):

영화에 속하는 비디오의 모음으로, 주로 영화의 오디오 설명을 제공하기 위한 목적임.
94개의 비디오, 68,337개의 클립, 68,375개의 문장을 포함하며, 총 지속 시간은 73.6시간임.

Montreal Video Annotation Dataset (M-VAD):

84.6시간의 92개 DVD에서 수집된 데이터로, 48,986개의 클립과 55,904개의 설명 문장을 포함함.
데이터는 Descriptive Video Service (DVS)에 의해 DVD에 인코딩되었으며, 요청을 통해 이용 가능함.

MSRVideo to Text (MSR-VTT):

비디오 캡션 작성 작업을 위한 가장 광범위한 데이터셋 중 하나로, 10K 웹 비디오 클립과 총 200K 문장을 포함함.
각 클립은 평균 10-30초 길이이며, 총 지속 시간은 약 41.2시간임.

Large Scale Movie Description Challenge (LSMDC):

MVAD와 MPII의 비디오 하위 집합이며, 더 많은 영화를 포함함.
데이터셋은 영화 장르를 균형있게 분할하기 위해 구성되며, LSMDC 2016은 101,046개의 훈련 클립과 7,408개의 검증 클립을 포함함.

Charades:

할리우드 인 홈 프로세스와 Amazon Mechanical Turk 도구를 사용하여 구축됨.
9,848개의 비디오와 평균 30.1초 길이의 27,847개의 텍스트 설명을 포함함.

ActivityNet Captions:

20k 비디오와 849시간 동안의 100k 전체 설명을 포함하며, 인간 활동에 대한 이해를 위한 ActivityNet 데이터셋에 기반함.
각 클립은 10분 지속되며 평균적으로 3.65개의 구절을 포함함

Visual Attentive Script (VAS):

15초 길이의 144개 비디오 클립이 포함되어 있으며, 각 비디오는 3개의 문장으로 설명됩니다.
이 데이터셋은 다운로드할 수 없습니다.

YouCookII:

각 비디오 세그먼트에 대해 두 가지 주석이 있는데, 첫 번째 설명은 레시피를, 두 번째는 확인을 설명합니다.
89개 레시피를 설명하는 2,000개의 클립과 13,829개의 문장, 총 176시간의 지속 시간이 포함됩니다.
각 비디오는 3-16개의 세그먼트로 구성되며, 공식 사이트를 통해 이용 가능합니다.

Fine-grained Sports Narrative (FSN):

유튜브에서 NBA 농구 경기를 중심으로 한 2,000개의 비디오가 포함되어 있으며, 평균적으로 각 비디오에 3.16개의 문장이 있습니다.
타임스탬프와 설명 문단으로 구성된 주석이 있으며, 이 데이터셋은 다운로드할 수 없습니다.

VATEX:

41,250개의 비디오와 825,000개의 문장이 포함되어 있으며, 영어와 중국어 두 언어로 되어 있습니다.
인간 활동과 관련된 비디오로, Kinetics-600과 YouTube 비디오의 조합으로 구성되어 있습니다.
각 언어별로 10개의 캡션을 Amazon Mechanical Turkers가 만들었으며, 공식 사이트를 통해 이용 가능합니다.

Sports Video Captioning Dataset-Volleyball (SVCDV):

배구와 관련된 또 다른 스포츠 데이터셋으로, 유튜브에서 수집된 55개의 비디오와 4,830개의 클립이 포함되어 있습니다.
평균적으로 각 클립에 9.2개의 문장이 있으며, 총 44,436개의 구절이 포함됩니다.
이 데이터셋은 다운로드할 수 없습니다.

Object-oriented captions:

ActivityNet Captions의 하위 집합으로, 게임이 진행되는 액션과 관련된 비디오가 포함되어 있습니다.
객체 간의 직접적인 관계를 표현하는 새로운 주석을 제안합니다.
75개의 비디오와 534개의 문장이 포함되어 있으며, 이 데이터셋은 다운로드할 수 없습니다.

LIRIS human activities dataset:

인간 활동, 특히 감시 및 사무실 조건과 관련된 데이터셋입니다.
원래 데이터셋은 828개의 행동을 포함하지만 캡션은 없으며, D1과 D2라는 두 개의 하위 집합으로 구성됩니다.
이 데이터셋은 공식 사이트를 통해 다운로드할 수 있으며, 캡션 문장은 어떠한 저장소에서도 이용할 수 없습니다.

UET Video Surveillance (UETVS):

스마트 감시 목적으로 수집된 데이터베이스로, 각 비디오에 대해 3-6개의 문장이 포함된 1,200개의 비디오가 있습니다.
설명은 전문 영어 작가들에 의해 획득되었으며, 이 데이터셋은 다운로드할 수 없습니다.

AGRIINTRUSION:

농업 환경이 배경인 유튜브에서 수집된 100개의 비디오가 포함되어 있습니다.
이 데이터셋은 다운로드할 수 없습니다.

온라인으로 접근 가능한 데이터세트는 다음과 같다.

논문 리뷰 범위:
- 분석된 논문은 2016년부터 2021년까지 출판된 것으로, 저널과 컨퍼런스에서 관련 논문들이 선택되었습니다.
- 각 논문에서 제목, 발표 년도, 방법 설명, 사용된 데이터셋, 도달한 결과, 그리고 논문이 발표된 곳 등의 특정 포인트를 선정하여 분석하였습니다.
데이터셋 사용 빈도:
- 총 20개의 다른 데이터셋이 보고되었으며, 일부는 다른 데이터셋의 하위 집합이었습니다.
- 가장 많이 인용된 데이터셋은 MSVD로, 다양한 논문에서 66회 사용되었습니다. 그 다음으로 많이 사용된 것은 MSR-VTT로, 61개의 작업에서 사용되었습니다.
연도별 출판 논문 수:
- 2019년이 비디오 캡션 작성과 관련된 논문이 가장 많이 출판된 해였습니다.
- 2020년과 2021년에는 각각 12편과 7편의 논문만이 출판되었는데, 이는 COVID-19 팬데믹 때문일 수 있습니다.
성능 메트릭 사용 빈도:
- 가장 많이 사용된 성능 메트릭은 METEOR였으며, 그 뒤를 이어 BLEU-4와 CIDERr-D가 각각 두 번째와 세 번째로 많이 사용되었습니다.
- BLEU-1, BLEU-2, BLEU-3은 비슷한 빈도로 사용되었고, “기타” 라벨에서는 두 번 이하로 보고된 결과가 있는 메트릭들이 포함되었습니다. 여기에는 Average-Recall (AR), SPICE, FCE, RE, 그리고 Self-BLEU가 있습니다.

비디오 캡셔닝에 대한 연구가 그렇게 많지 않다. 공개 데이터세트를 벗어난 연구에 대해서는 많이 힘들 수 있다는 점을 인지하고 연구를 진행하여야 할 것이다.

Image Captioning과 크게 다르지 않다. BLEU-4보다 CIDERr-d, METEOR가 더 많이 사용되는 이유를 알아보기 위해 세 가지 방법의 대한 수식과 의미를 해석해볼 필요가 있다.

접근 방식에 따른 분류 (About approaches)

리뷰 논문의 저자가 선정한 비디오 캡션에 영향을 크게 끼친 3가지 연구 소개

비디오 캡션 작성과 관련된 논문 리뷰에서 선정한 세 가지 작업은 다음과 같습니다:

Zhao et al.(2019)의 연구: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8718523
- 이미지와 텍스트 특징 간의 상관관계를 활용하려는 시도를 합니다.
- CAM-RNN (Co-Attention Model 기반의 RNN 네트워크)을 제안하며, 이는 시각적 주의, 텍스트 주의, 그리고 균형 게이트의 세 부분으로 구성됩니다.
- 주목할 점은 시각적 및 텍스트 특징을 상관관계에 기반하여 결합하고, 텍스트 생성에 시각적 특징의 영향을 가중치를 통해 조절하는 것입니다.
- VGGNet16, GoogLeNet, C3D 등의 CNN 아키텍처를 사용하며, 160개 프레임의 비디오만을 실험에 사용합니다.
Shin et al.(2016)의 연구: https://arxiv.org/pdf/1605.05440.pdf
- 비디오에서 행동 지역화에 기반한 시간적 분할 전략을 제안합니다.
- Video 데이터에 대해서 Temporal segmentation을 했다는 것은, 비디오 데이터를 시간 순서에 따라 연속적인 프레임으로 구성된 단일 덩어리에서 서로 다른 액션이나 이벤트로 구성된 여러 개의 덩어리로 분할했다는 것을 의미합니다. Temporal segmentation을 통해 비디오 데이터를 서로 다른 덩어리로 분할함으로써, 각 덩어리의 특징을 파악하고, 비디오 데이터에 대한 다양한 분석을 수행할 수 있습니다. Temporal segmentation의 3가지 방식은 다음과 같다.
  - Motion-based segmentation
  - Object-based segmentation
  - Event-based segmentation

- Dense Trajectories 접근법을 사용하여 동작 특징을 추출하고, 시간적 행동 지역화를 위해 시간적 슬라이딩 윈도우와 비최대 억제를 사용합니다.
  - Dense Trajectories 접근법은 비디오 데이터에서 물체의 움직임을 추적하기 위한 방법입니다. 이 방법은 물체의 각 프레임에서의 위치와 속도를 사용하여 물체의 궤적을 생성합니다. 동작 특징은 물체의 움직임을 나타내는 특성을 말합니다. 동작 특징은 물체의 속도, 가속도, 방향, 기울기, 곡률 등과 같은 속성으로 구성될 수 있습니다.
    
    시간적 슬라이딩 윈도우는 일정한 크기의 윈도우를 시간 순서에 따라 이동시키는 방법입니다.비최대 억제는 신호 처리에서 사용되는 기법으로, 신호에서 최대값을 제외한 다른 값을 억제하는 방법입니다.
    
    따라서, "Dense Trajectories 접근법을 사용하여 동작 특징을 추출하고, 시간적 행동 지역화를 위해 시간적 슬라이딩 윈도우와 비최대 억제를 사용합니다."라는 문장은 다음과 같이 해석할 수 있습니다.
    
    비디오 데이터에서 Dense Trajectories 접근법을 사용하여 물체의 궤적을 생성합니다. 생성된 궤적에서 동작 특징을 추출합니다. 추출된 동작 특징을 기반으로 시간적 슬라이딩 윈도우를 사용하여 시간적 행동 지역화를 수행합니다. 시간적 행동 지역화는 윈도우 내에서 동작 특징이 비최대 억제를 통해 억제되지 않는 영역을 찾는 과정입니다.
    
    구체적인 예를 들어 설명하면, 다음과 같습니다.
    
    축구 경기 비디오 데이터에서 Dense Trajectories 접근법을 사용하여 선수의 궤적을 생성합니다. 생성된 궤적에서 선수의 속도, 가속도, 방향 등을 추출합니다. 추출된 동작 특징을 기반으로 시간적 슬라이딩 윈도우를 사용하여 시간적 행동 지역화를 수행합니다. 시간적 행동 지역화를 통해 골, 패스, 슛 등과 같은 선수의 핵심적인 액션을 찾을 수 있습니다.
    
    이러한 방법은 비디오 데이터에서 동작을 인식하고, 분석하는 데 효과적으로 사용될 수 있습니다.
    Dense Trajectories의 예시
- 여러 프레임에서 자막 생성을 위해 역참조 해결을 사용하며, Stanford CoreNLP의 성별 주석자, POS 태거, 표제화 전략 등을 활용합니다.
- 다양한 크기의 비디오 세그먼트 내용을 탐색하여 행동을 분류하는 대신 지역화하는 것이 특징입니다.
Xiao and Shi(2019)의 연구:
- 강화된 적응형 주의 모델 (RAAM)을 사용합니다.
- CNN과 Bi-LSTM 네트워크를 사용하여 비디오 특징을 생성하고, 각 단어에 대한 주의를 피하려고 합니다.
- 단어 수준의 교차 엔트로피를 최소화할 뿐만 아니라 문장 수준에서도 정책 그라디언트를 사용한 혼합 손실 훈련을 제안합니다.
- 세 개의 단방향 LSTM 계층을 사용하여 디코딩 작업을 수행하며, 다음 단어 생성에 대한 시각적 및 맥락 정보의 결합을 특징으로 합니다.

비디오 캡션 작성 분야에서 개선될 수 있는 여러 영역

일반화 부족:
- 일부 데이터셋에서 낮은 결과를 보여준 것은 제안된 방법들이 이 작업을 다루는 데 있어 일반화 부족을 나타낼 수 있습니다.
- 특히, 음성 인식과 움직임 단서와 같은 일부 비디오 콘텐츠 특징들이 누락되거나 사용되지 않는 경우가 있습니다.
선행 연구의 활용 부족:
- 비디오 행동 인식, 동작, 궤적 분석, 객체 및 분류와 관련된 선행 연구들의 활용이 부족합니다.
- 가장 우수한 연구들은 시간이나 시간적 단서와 관련된 다양한 동작 특징을 활용합니다.
성능 평가 메트릭의 개선:
- 대부분의 연구는 의미론적 측면과 관련 없는 첫 번째 세대 메트릭(예: BLEU, CIDERr-D)을 사용합니다.
- BLEURT, BERTScore, BERTr, CLIPScore와 같은 새로운 메트릭들이 의미론적 또는 문맥적 임베딩을 사용하여 단어의 의미론적 관계를 평가합니다.
실제 적용 분야의 부족:
- 대부분의 연구들은 공개적으로 이용 가능한 데이터셋에만 그들의 방법을 적용하고 있으며, 실제 시나리오에 적용하는 것은 거의 없습니다.
- 시각 장애인을 위한 영화 설명이나 레시피 설명과 같은 특정 분야에만 적용됩니다.
- 스포츠 내레이션과 같은 분야는 거의 탐색되지 않았습니다.
비디오 캡션 작성 작업의 다양한 적용:
- 스마트 비디오 감시와 같은 다양한 분야에서의 활용 가능성이 있지만, 아직 탐색되지 않았습니다.
- 실시간으로 중요한 이벤트를 감지하고 캡션을 생성하는 것은 큰 도전입니다.
자동 자막 생성과 시각 장애인을 위한 적용:
- 실시간 성능과 의미있는 정보 추출의 필요성을 충족시키는 자동 자막 생성이 중요합니다.
- 모델의 안전성과 강건성을 극대화하여 사용자의 편의성을 높이는 것이 중요합니다.

이러한 개선점들은 비디오 캡션 작성 분야에서의 미래 연구 방향성을 제시하며, 실제 환경에서의 성능 평가 및 적용을 통해 이 분야의 발전에 기여할 수 있을 것입니다.

저작자표시 (새창열림)

'논문 분석 > Videp captioning' 카테고리의 다른 글

Dense Video Captioning 관련 논문 (0)	2023.11.28
Video Captioning 최신 연구 동향 [2] (0)	2023.11.28

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

IDNHBTFM