한국해양대학교

Detailed Information

Metadata Downloads

객체의 관계성을 이용한 다중 특징 기반 Dense Image Captioning에 관한 연구

Title
객체의 관계성을 이용한 다중 특징 기반 Dense Image Captioning에 관한 연구
Alternative Title
A Study on Multi-feature-based Dense Image Captioning using Object Relationships
Author(s)
신영재
Issued Date
2023
Publisher
한국해양대학교 대학원
URI
http://repository.kmou.ac.kr/handle/2014.oak/13155
http://kmou.dcollection.net/common/orgView/200000671293
Abstract
Dense Image Captioning detects the location of all objects appearing in an image and expresses the visual context information between these objects in natural language. Humans generally describe by focusing on the relationship between objects among the various contexts of images. Relationships consist of two objects, and a relation refers to the interaction between these objects. Therefore, detecting an object pair composed of a subject and an object having a relationship is essential to represent an image's context accurately. However, conventional Dense Image Captioning generates sentences based on a region of interest limited to a single object. Because of this, there is a limitation in that this sentence describes regional information.
Therefore, in this paper, we propose a relationship-oriented dense image captioning model that can accurately describe the situation of an image. The proposed model consists of a Pair Detection Module that extracts object pairs and relations from images and a Feature Embedding Module that integrates the feature vectors of these relationships. The Pair Detection Module detects subjects, objects, and relations through three Region Proposal Networks and matches pairs between subjects and objects through an association between them. The Feature Embedding Module embeds the feature vectors of subjects, objects, and relations into one feature and converts them into a single feature vector. Afterward, the proposed model generates sentences through an LSTM-based language model based on this feature vector, enabling a description suitable for the context. Therefore, this model can generate sentences including object relationships by extending them to a wide area, including object pairs, rather than a local area of interest with one object.
In this paper, to verify the proposed model, the model was trained and tested using the Visual Genome dataset, and METEOR and mAP were used as indicators to evaluate it quantitatively. The proposed model has almost the same score compared to the existing model in the METEOR index that analyzes sentence accuracy. However, the mAP score, which represents the overall accuracy of the detected area, was 11.3%, which was about 10% better than previous studies. This result indicates that the proposed model detects the sentence region more accurately than the state-of-the-art model. In addition, as a result of analyzing the characteristics of sentences through CIDEr, this model accurately depicts the context by selecting synonyms in the predicate area compared to general image captioning. Through this study, Dense Image Captioning was able to identify the relationship between objects in images and create accurate sentences based on it. Based on this, this technology is expected to be applied to fields that require understanding complex images, such as unmanned surveillance systems, image searches, and medical aids.|Dense Image Captioning은 이미지에 나타나는 모든 객체의 위치를 검출하고 이 객체 간에 발생하는 시각적인 상황정보를 자연어로 표현한다. 일반적으로 인간은 이미지의 여러 맥락 중에서 객체의 관계성에 집중하여 묘사한다. 관계는 두 개의 개체로 구성되며 관계는 이러한 개체 간의 상호 작용을 나타낸다. 그러므로 관계성을 가지는 주체와 객체로 구성된 객체 쌍을 검출하는 것은 이미지의 맥락을 정확하게 표현하는데 필수적이다. 하지만 기존의 Dense Image Captioning은 단일 객체에 한정된 관심영역을 기반으로 문장을 생성한다. 이로 인해 이 문장이 지역적인 정보를 묘사한다는 한계가 존재한다.
따라서 본 논문에서는 이미지의 정확한 상황 묘사가 가능한 관계 지향 Dense Image Captioning 모델을 제안한다. 제안하는 모델은 이미지에서 객체 쌍과 관계를 추출하는 Pair Detection Module과 이 관계성의 특징벡터를 통합하는 Feature Embedding Module로 구성된다. Pair Detection Module은 3개의 Region Proposal Network를 통해 각각 주체, 객체, 관계를 검출하고 이들 간의 연관성을 통해 주체와 객체 사이의 쌍을 매칭한다. Feature Embedding Module은 주체, 객체, 관계의 특징벡터들을 하나의 특징으로 임베딩하여 단일한 특징벡터로 변환한다. 이후, 제안하는 모델은 이 특징벡터를 바탕으로 LSTM 기반의 언어모델을 통해 문장을 생성함으로써 맥락에 맞는 묘사가 가능하다. 그러므로 이 모델은 한 객체를 가지는 국소적인 관심영역이 아닌 객체 쌍을 포함하는 넓은 영역으로 확장함으로써 객체의 관계성을 포함한 문장을 생성할 수 있다.
본 논문에서는 제안하는 모델을 검증하기 위해 Visual Genome 데이터셋을 이용하여 모델의 학습 및 시험을 진행하였으며 이를 정량적으로 평가하기 위해 METEOR, mAP를 지표로 사용하였다. 제안하는 모델은 문장의 정확도를 분석하는 METEOR 지표에서 기존의 모델에 비교하여 거의 동일한 점수를 가졌다. 그러나 검출한 영역의 종합적인 정확도를 나타내는 mAP 점수는 11.3% 로 기존의 연구 대비 10% 정도 우수한 성능을 보였다. 이 결과는 본 논문에서 제안하는 모델이 최신의 모델과 비교하여 문장의 영역을 더 정확하게 검출하는 것을 나타낸다. 또한 CIDEr을 통해 문장의 특성을 분석한 결과, 본 모델은 일반 Image Captioning에 비해 서술어 영역의 유의어를 잘 선택함으로써 맥락을 정확하게 묘사함을 알 수 있다. 본 연구를 통해 Dense Image Captioning이 이미지에 존재하는 객체들 사이의 관계를 파악하고 이를 기반으로 정확한 문장을 생성할 수 있었다. 이를 기반으로 본 기술이 무인 감시 시스템, 이미지 검색, 의료 보조기기 등과 같은 복잡한 이미지의 이해를 요구하는 분야에 적용이 기대된다.
Appears in Collections:
기타 > 기타
Files in This Item:
There are no files associated with this item.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse