한국해양대학교

Detailed Information

Metadata Downloads

품사 Guidance 모듈과 Multimodal 기반의 이미지 캡셔닝 모델에 관한 연구

Title
품사 Guidance 모듈과 Multimodal 기반의 이미지 캡셔닝 모델에 관한 연구
Alternative Title
A Study on POS Guidance Module and Multimodal-basedImage Captioning Model
Author(s)
배주원
Keyword
이미지 캡셔닝딥러닝
Issued Date
2021
Publisher
한국해양대학교 대학원
URI
http://repository.kmou.ac.kr/handle/2014.oak/12704
http://kmou.dcollection.net/common/orgView/200000374632
Abstract
Image captioning aims to describe the information of an image in detail and to be structured in a certain grammatical structure, so that the user can understand the content easily. In particular, since it deals with two types of independent data, images and natural language, deep learning-based image captioning research that can create sentences with accurate content and various expressions using neural networks suitable for each data is being actively conducted. In recent years, deep learning-based image captioning is mainly researched on a method of focusing on image information through attention-based research in which sentences are generated by focusing on a core part of an image in the same way as a human visual system. However, since these methods do not take into account the sentence structure, the grammatical structure may be poorly structured, resulting in sentences that are difficult to understand.
Therefore, in order to generate sentences with accurate grammatical structure and rich expression, we proposes a Part-Of-Speech(POS) Guidance Module and a multimodal-based image captioning model that directly utilizes the sentence structure information. The proposed POS Guidance Module uses a POS guide variable that applies an additional weight to each data according to the POS information on image features and sentences in order to generate sentences with rich expression. In addition, the proposed POS Multimoal-based image captioning method is used to generate sentences with an accurate grammatical structure by correcting the predicted words of the next timestep according to the POS order information. In the POS multimodal layer, the generated sentence information obtained from Decoder's Bi-LSTM is corrected according to the POS sequence information to predict a word corresponding to the next point of view prediction part of speech. Through this, it complies with the rules of part-of-speech, has an accurate grammatical structure, and creates sentences with more expressive than existing researches.
To verify the validity of the proposed model, in this paper, learning and evaluation were conducted with Flicker 30K and MS COCO datasets, and objective evaluation metrics such as BLEU, METEOR, CIDEr, SPICE, and ROUGE is compared. The performance of the proposed model, all evaluation metrics are improved overall compared to the recent comparison models, in particular, the CIDEr score increased 8.85% and 3.03%, respectively, compared to the comparison models trained with each dataset. In addition, in the SPICE score, 0.06 points and 0.002 points were high for each dataset, and through this, it was found that the proposed model produced an accurate explanation sentence that fits the content of the image with concentrated information through part of speech. In addition, by comparing the generated sentences of the comparative models for the given images, it was confirmed that the proposed model not only described sentences with an certain grammatical structure but also generated sentences with rich expression. Through this study, we expected that more expressive and accurate sentences can be generated, which can be used in fields requiring analysis of a given image, such as medical care, image summary, and surveillance, and widely commercialized.
이미지 캡셔닝은 사용자가 내용을 이해하기 쉽도록 이미지의 정보를 상세하게 묘사하고 정확한 문법 구조로 명료하게 서술되는 것을 목표로 한다. 특히 이미지와 자연어라는 독립적인 두 형태의 데이터를 다루기 때문에 각 데이터에 맞는 뉴럴 네트워크를 사용해 정확한 내용과 다양한 표현의 문장을 만들 수 있는 딥러닝 기반의 이미지 캡셔닝 연구가 활발히 이루어지고 있다. 이러한 딥러닝 기반의 이미지 캡셔닝은 최근 인간의 시각 체계와 동일하게 이미지의 핵심 부분에 집중하여 문장을 생성하는 Attention 기반의 연구를 통해 이미지 정보에 집중하는 접근법이 주로 연구되고 있다. 하지만 이런 방식들은 문장 구조를 고려하지 않으므로 문법 구조가 올바르지 않게 구성되어 이해하기 어려운 문장이 생성될 수 있다.
따라서 본 논문에서는 정확한 문법구조와 풍부한 표현을 가진 문장을 생성하기 위해 문장의 구조 정보인 품사를 직접적으로 활용하는 품사 Guidance Module과 Multimodal 기반의 이미지 캡셔닝 모델을 제안한다. 풍부한 표현의 문장을 생성하기 위해 제안하는 품사 Guidance Module은 이미지 특징 정보와 문장 정보를 품사에 따라 각 데이터에 추가적인 가중치를 적용하는 품사 가이드 변수를 사용한다. 그리고 품사 순서 정보에 따라 다음 시점 예측 단어를 교정하여 정확한 문법 구조의 문장을 생성하기 위해 제안하는 품사 Multimoal 기반의 이미지 캡셔닝 방법을 사용한다. 품사 Multimodal 레이어에서는 Decoder의 Bi-LSTM에서 얻어지는 생성 문장 정보를 품사 순서 정보에 따라 교정하여 다음 시점 예측 품사에 해당하는 단어를 예측한다. 이를 통해 품사 규칙을 준수하는 정확한 문법 구조를 가지면서 동시에 기존의 연구보다 풍부한 표현을 가진 내용의 문장을 만든다.
제안하는 모델의 타당성을 검증하기 위해 본 논문에서는 Flicker 30K와 MS COCO 데이터셋으로 학습과 평가를 진행했으며, 객관적인 평가 지표인 BLEU, METEOR, CIDEr, SPICE, ROUGE를 비교하였다. 제안하는 모델의 성능은 최근의 비교 모델들에 비해 모든 평가 지표 점수가 전체적으로 향상되었으며 특히, CIDEr 점수에서 각 데이터셋으로 학습한 비교 모델들에 비해 각각 8.85%, 3.03% 상승하였다. 그리고 SPICE 점수에서 각 데이터셋에 대해 0.06점, 0.002점 높았으며, 이를 통해 제안하는 모델이 품사를 통해 집중된 정보들로 이미지의 내용에 맞는 정확한 설명을 생성함을 확인하였다. 그리고 주어진 이미지들에 대한 비교 모델들의 생성 문장들과 비교해 제안하는 모델이 정확한 문법 구조로 문장을 서술했을 뿐만 아니라 풍부한 표현의 문장을 생성한 것을 확인할 수 있었다. 본 연구를 통해 더 풍부한 표현과 정확한 문장을 생성할 수 있게 되어 의료, 영상 요약, 감시 등과 같은 주어진 이미지에 대한 분석이 필요한 분야에 활용되어 널리 상용화될 수 있을 것으로 기대된다.
Appears in Collections:
전기전자공학과 > Thesis
Files in This Item:
There are no files associated with this item.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse