한국해양대학교

Detailed Information

Metadata Downloads

종속절 및 형태소 분리를 이용한 한국어 개체명 인식

Title
종속절 및 형태소 분리를 이용한 한국어 개체명 인식
Author(s)
윤호
Keyword
종속절 분리, 형태소 분리, 개체명 인식, Subordinate clauses segmentation, Morpheme segmentation, Named entity recognition
Publication Year
2020
Publisher
한국해양대학교 대학원
URI
http://repository.kmou.ac.kr/handle/2014.oak/12415
http://kmou.dcollection.net/common/orgView/200000283923
Abstract
개체명 인식이란 주어진 문서에서 개체명의 범위를 찾고 개체명의 범주를 결정하는 것이다. 개체명 인식은 문서 요약, 질의응답, 기계번역, 잡담처리과 같은 자연언어처리 전반에 사용된다. 개체명 인식의 고질적인 문제점 중 하나는 미등록어(out-of-vocabulary) 문제이다. 기존의 한국어 개체명 인식의 입력은 주로 형태소 분석 결과이다. 이 경우에는 미등록어로 발생된 오류가 개체명 인식에 그대로 전파되므로 여전히 미등록어로 인해 발생되는 문제가 완전히 해소되지 않는다.
이와 같은 문제를 다소 완화하기 위해 본 논문에서는 종속절 및 형태소 분리를 이용한 한국어 개체명 인식 방법을 제안한다. 제안된 방법은 세 단계로 구성된다. 첫 번째 단계는 종속절 분리 단계이며 순환신경망을 이용하여 입력된 문장을 종속절 단위로 분리한다. 두 번째 단계는 형태소 분리 단계이며, Transformer 모델을 이용하여 각 종속절의 형태소를 분리한다. 이때 미등록어 문제를 완화하려고 형태소 분리 모델(Transformer 모델)의 입력으로 부분단어 정보를 이용한다. 세 번째 단계는 개체명 인식 단계이며, 순환신경망을 이용해서 분리된 형태소에 개체명 표지를 부착한다.
제안된 방법을 통하여 문장 분리에서는 95%의 문장 분리 정확률을 나타냈으며, 형태소 분리에서는 90%의 F1-점수를 나타내었으나 한글맞춤법을 고려할 경우 98.3%의 정확률을 보였다. 개체명 인식의 경우 72%의 F1-점수를 나타내었다. 위의 결과를 통해 제안하는 방법이 기존의 방법보다 성능이 우수함을 알 수 있다. |Named entity recognition (NER) is a subtask that seeks to locate and classify named entities in a given document into pre-defined categories such as person names, organizations, locations, and so on. NER can be applied to many applications related to natural language processing such as document summarization, question answering, machine translation, and chatbot etc. There is a notorious problem in NER called out-of-vocabulary (OOV). Many previous works have tackled the problem through extension of training corpus and various word representation in deep learning. In addition, most Korean NER systems have used morphological analysis as preprocessors, but Korean morphological analysis has the same problem of OOV of which errors are propagated to the NER system and cause the performance to deteriorate further.
In order to alleviate the problem, we propose a novel method for Korean NER using subordinate clause and subword segmentation. The proposal method consists of three steps. The first step is to segment subordinate clauses from a given sentence using a recurrent neural network (RNN), especially Bi-LSTM/CRF. The second step is to segment morphemes from the segmented clauses using the Transformer model developed by Google. The model takes subwords as input in order to mitigate the OOV problem. The third step is to assign the most proper BIO tag to each morpheme using Bi-LSTM/CRF of RNNs. Through experiments, the proposed steps of subordinate clause and morpheme segmentation have been evaluated, achieving F1-scores of about 95% and 98%, respectively. For the proposed NER, experimental results show that our word outperforms the other Korean NER models, carrying out F1-score of about 72%.
In the future, we will do research on more accurate morpheme segmentation using the Transformer model with copy mechanism and also on subordinate clause segmentation or subsentence segmentation in linguistics.
Appears in Collections:
해운항만물류학과 > Thesis
Files in This Item:
200000283923.pdf Download

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse