한국해양대학교

Detailed Information

Metadata Downloads

Development of architecture for monocular depth estimation and semantic segmentation based on Vision Transformer, BiLSTM, and CNN

Title
Development of architecture for monocular depth estimation and semantic segmentation based on Vision Transformer, BiLSTM, and CNN
Author(s)
변영훈
Issued Date
2023
Publisher
한국해양대학교 대학원
URI
http://repository.kmou.ac.kr/handle/2014.oak/13282
http://kmou.dcollection.net/common/orgView/200000697516
Abstract
Monocular depth estimation and semantic segmentation are widely investigated for image recognition in the computer vision field. Both tasks predict pixel-level outputs from an input RGB image, so the models for both tasks have a similar structure, especially the encoder-decoder structure is usually used. In recent years, the advance of deep learning methods, particularly convolutional neural networks (CNNs), enables high-quality pixel-level image recognition. However, the CNNs have a limitation to enlarge kernel size to learn global context information due to computational cost. Inspired by this, Vision Transformer (ViT) has been proposed by successfully introducing the Transformer that has become dominant in the natural language processing field and the ViT can learn the global context information by attending all parts of the input image with patch embedding. Therefore, the ViT has been widely applied to sub-tasks in computer vision that need pixel-level prediction such as monocular depth estimation, semantic/instance segmentation, etc. Meanwhile, recurrent neural networks (RNNs), especially bi-directional long-short term memories (BiLSTMs), are commonly used to enhance the features or conduct tasks alone. Despite the capability of BiLSTMs, it requires considering information loss to make BiLSTMs process two-dimensional image data because the spatial information may be lost while one-dimensional sequence data is processed.
Following the above analysis, an architecture for monocular depth estimation and semantic segmentation is proposed based on ViT, BiLSTM, and CNN in this thesis. The overall architecture is based on the encoder-decoder structure. The encoder consists of the ViT to ensure the capability of capturing global context information while the decoder consists of CNNs to aggregate the features and refine local information. In addition, a BiLSTM module is introduced to enhance global context information of the outputs of the ViT encoder. Furthermore, two technologies are considered for the performance increase; the BiLSTM2D layer and the CLS token initialization method. The BiLSTM2D layer is designed to address two-dimensional image data for BiLSTM, which generates a vertical and horizontal sequence to preserve relationships in each direction and processes them with separate BiLSTMs. On the other hand, the CLS token initialization method is applied to initialize the hidden state and cell state of each BiLSTM to reflect contextual information. The proposed architecture is trained and evaluated with NYU Depth V2 and ADE20K dataset for monocular depth estimation and semantic segmentation respectively.
|단안 깊이 추정과 의미론적 분할은 최근 주목받고 있는 컴퓨터 비전 분야 중 하나로 영상 인지를 위해 널리 응용되고 있다. 두 분야 모두 입력 RGB 이미지에서 픽셀 단위 추정을 수행하므로 동일한 encoder-decoder를 사용하여 모델을 개발하는 연구가 진행되고 있다. 지난 몇 년간 발전된 딥러닝 기술, 특히 CNN의 발전으로 데이터 기반 학습으로 높은 성능의 픽셀 단위 분류와 깊이 추정이 가능해졌다. 그러나, CNN (convolutional neural network)는 convolution 연산의 kernel 크기가 제한되어 주어진 이미지에서 문맥 정보를 학습하는데 어려움이 있다. 이에 영감을 받아 제안된 ViT (Vision Transformer)는 자연어 처리 분야에서 사용되는 Transformer를 이미지 데이터에 사용할 수 있게 개발된 모델이다. Transformer의 기본 연산인 self-attention은 CNN과 달리 이미지 전체를 receptive field로 두므로 보다 전역적인 정보를 학습할 수 있어 기존 CNN 기반 모델들을 능가하는 성능을 달성할 수 있고, 이러한 장점으로 인해 최근 ViT를 여러 컴퓨터 비전 분야에 활발히 사용하고 있다. 이러한 ViT의 전역 정보 학습 능력은 이미지의 문맥 정보가 중요한 단안 깊이 추정과 의미론적 분할 성능을 높이는데 활용될 수 있어 최근 많이 연구되고 있다. 한편, 자연어 처리 분야에서 RNN (recurrent neural network), 특히 BiLSTM (bi-directional long-short term memory)의 우수한 언어 데이터 처리 능력에서 영감을 받아 컴퓨터 비전 연구에 응용하는 시도가 이루어지고 있다. 그러나 BiLSTM은 2차원 이미지가 아닌 1차원 sequence 데이터를 다루어 이미지의 공간 정보가 유실될 수 있는 한계가 있어 공간 정보를 기억하거나 수평, 수직 방향을 나누어 학습하는 등의 연구가 필수다.
위의 분석에 따라 본 학위 논문에서는 ViT와 BiLSTM, CNN 기반의 단안 깊이 추정 및 의미론적 분할 모델을 개발한다. 전체 아키텍처는 encoder-decoder 구조를 사용하며, 전역 정보 학습 능력이 중요한 encoder는 ViT, 추출된 특징들을 모아 지역 정보를 다듬는 능력이 중요한 decoder는 ViT가 아닌 CNN으로 구성한다. 또한, ViT의 특징 추출 능력을 강화하기 위해 ViT 출력을 BiLSTM으로 처리하는 모듈을 개발한다. 이때 ViT의 sequence 데이터에서 공간 정보를 학습하기 위해 입력 이미지의 폭과 높이를 활용해 sequence 데이터를 수직, 수평 방향으로 재정렬하여 각각 별도의 BiLSTM으로 처리하는 BiLSTM2D 레이어를 적용한다. 그리고 각 BiLSTM의 문맥 정보 학습 능력을 강화하기 위해 ViT 출력의 CLS 토큰을 BiLSTM의 각 hidden state와 cell state의 가중치를 초기화하는데 사용하는 방법을 활용한다. 제안하는 아키텍처는 각각 단안 깊이 추정과 의미론적 분할 데이터셋인 NYU Depth V2와 ADE20K로 학습하고 평가한다.
Appears in Collections:
기타 > 기타
Files in This Item:
There are no files associated with this item.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse