한국해양대학교

Detailed Information

Metadata Downloads

구묶음을 반영한 한국어 의존구조 분석

Title
구묶음을 반영한 한국어 의존구조 분석
Author(s)
남궁영
Keyword
구문분석, 의조구조 분석, 부분 구문분석, 구묶음, 말덩이
Issued Date
2020
Publisher
한국해양대학교 대학원
URI
http://repository.kmou.ac.kr/handle/2014.oak/12355
http://kmou.dcollection.net/common/orgView/200000283922
Abstract
자연언어처리에서 구문분석은 문장 구성 성분들의 관계를 파악하는 과정을 말한다. 구문분석을 통해 문장의 구조를 결정함으로써 의미적 중의성을 해소할 수 있다. 한국어 구문분석은 구문분석기의 입력이 되는 문장의 성분 수가 많아 이로 인해 분석의 복잡도가 높고 정확도가 낮은 현상을 보인다. 이에 대한 해결방안으로 본 논문에서는 구묶음을 반영한 한국어 구문분석을 제안한다. 구묶음은 형태소분석된 문장에 대해 문법적, 의미적으로 하나의 역할을 하는 연속된 형태소들을 하나의 말덩이로 묶는 작업을 말한다. 구묶음을 수행하면 구문분석의 입력이 되는 문장 성분의 수가 줄어들며, 문장 내에서 보조적인 역할을 하는 요소들이 하나의 말덩이로 묶이므로 말덩이 내의 중심어에 대해서만 의존 관계를 파악할 수 있어 구문분석의 효율성이 증진된다.
따라서 본 논문에서는 구묶음을 반영한 구문분석을 수행하기 위해 한국어에 대해 구묶음과 말덩이를 정의하고 이에 기반하여 구묶음을 수행한다. 또한, 구묶음 수행 결과를 바탕으로 기존의 한국어 의존구조 말뭉치로부터 구묶음을 반영한 의존구조 말뭉치를 구축한다. 이러한 작업을 기반으로 하여 궁극적으로 구묶음을 반영한 구문분석과 기존의 구문분석을 비교하고 분석함으로써 한국어처리에 있어 구묶음의 유효성과 필요성을 보이는 데 그 의의가 있다.
실험 결과 어절 단위로 정확도를 측정했을 때, 구묶음을 반영한 경우는 UAS 기준 86.48%, LAS 기준 84.56% 였으며, 기존 방식의 경우 UAS 기준 82.98%, LAS 기준 80.45%로, 구묶음을 반영한 경우가 각각 3.5%p, 4.11%p 상승한 결과를 보였다.
구묶음을 반영한 구문분석은 정확도나 효율성 면에서 기존의 방법보다 나은 결과를 보였으며, 구문적인 관점뿐만 아니라 의미적인 요소도 함께 분석할 수 있는 방법이다. 따라서 한국어처리에서도 지속적으로 구묶음을 반영한 구문분석에 대한 연구가 이루어져야 할 것이다. 이를 위해 구묶음 자체에 대한 오류 분석과 구묶음을 반영한 말뭉치의 효용성에 관한 연구도 다각도에서 검증되어야 할 것이다. 또한, 내용어와 기능어의 비중이 구문분석에 미치는 영향에 관한 연구도 흥미 있는 주제로 남아있다.|In natural language processing, syntactic parsing is to analyze relationship between sentence components. The parsing can resolve semantic as well as syntactic ambiguity by determining the relationship. On the other hand, in Korean parsing, usually there are a lot of components (or morphemes) in an input sentence, and these can cause high complexity and low accuracy in parsing. To alleviate this problem, we propose Korean parsing reflected chunking. Chunking is to identify constituents called chunks which are a sequence of words (or morphemes) playing a syntactic and semantic role in a given sentence. We can decrease the number of the input components of the parser by chunking. Moreover, chunking groups morphemes with auxiliary meaning like functional or grammatical meaning, so we can just focus on the head word in chunks.
The purpose of this paper is therefore threefold. The first is to define Korean chunks. The second is to build Korean dependency corpus reflected chunking, which is for experiments, according to the chunk definition. The corpus can be automatically converted from the existing Korean dependency corpus. The third is to develop a Korean dependency parser reflected chunking. The parser has been experimentally evaluated in parsing Korean text, achieving UAS and LAS of 86.48% and 84.56% respectively. The parser outperforms the Korean parser which is not reflected chunking by 3.5%p and 4.11%p, and has been shown to be better than the existing one in performance. The parser can also analyze semantic as well as syntactic structure.
In the future, the study on chunking in Korean should be conducted consistently for establishing linguistic concepts. An error analysis on the chunking and parsing is required for performance improvement. Furthermore, the difference in vector representation according to the ratio between content chunks and function chunks in a sentence still remains as an interesting subject.
Appears in Collections:
해운항만물류학과 > Thesis
Files in This Item:
200000283922.pdf Download

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse