GMM을 이용한 한국어 말뭉치에서의 오류 탐지
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | 김재훈 | - |
dc.contributor.author | 최민석 | - |
dc.date.accessioned | 2020-07-22T04:17:46Z | - |
dc.date.available | 2020-07-22T04:17:46Z | - |
dc.date.issued | 2020 | - |
dc.identifier.uri | http://repository.kmou.ac.kr/handle/2014.oak/12336 | - |
dc.identifier.uri | http://kmou.dcollection.net/common/orgView/200000283925 | - |
dc.description.abstract | In computational linguistics, a corpus is a large and structured set of language samples collected from real world text for a specific purpose. There are be various types of errors in the corpus because most corpus are built manually and/or semi-automatically and the errors are caused by human intervention. Such errors make corpus-based learning systems worse in performance. Many studies have therefore been conducted to detect and correct such errors in various ways and most studies have been done from pre-built corpus. Human intervention is, however, still required. In addition, error correction is not only very tedious as well as laborious and cost-expensive. In this paper, we propose a method for detecting corpus errors using GMM clustering algorithm. The purpose of this paper to detect errors under the small size of corpus. That is, the proposed method can be used in developing corpus by integrating into annotation tools. The proposed method consists of three steps. The first step is to make word embedding vectors of some error-prone context. The second step is to reduce the dimension of the vectors because clustering with a large dimension of vectors is time-consuming. The third step is to group the reduced vectors and to detect outliers as errors. For experiments, we have used two kinds of corpora: Korean dependency corpus and Korean semantic role labelling (SRL) corpus of which each one comprises only 1000 sentences. Our results show that the proposed method can serve as a error detector in early stage of corpus development. Our best results achieve recall of 65.15% for Korean dependency corpus and recall of 69.46% for Korean SRL corpus. In the future, we will do research on representing features for detecting errors and also on correcting errors as well as detecting errors. Motivated by the proposed method, we will start to investigate error detection in case that there is a large tagged corpus.|말뭉치란 특정 목적을 가지고 언어 표본을 추출한 집합을 의미한다. 이런 말뭉치에는 목적에 따라 다양한 종류가 있다. 대부분의 말뭉치는 사람의 수작업으로 구축되기 때문에 다양한 오류들이 포함되어 있으며, 오류가 포함된 말뭉치를 사용하는 시스템은 좋은 성능을 기대할 수 없다. 이러한 문제점을 해결하기 위해 다양한 방법으로 오류를 탐지하고 수정하는 연구가 진행되었다. 하지만 대부분의 방법들이 이미 제작된 말뭉치를 학습하여 오류를 탐지하고 수정한다. 이러한 작업을 여러 번 수행하여야 하며 많은 비용이 소요된다. 이 문제를 다소 완화시키기 위해 본 논문에서는 GMM(Gaussian Mixture Model)을 이용한 군집화를 통해 오류 탐지 방법은 제안한다. 군집화는 비지도학습의 한 방법으로 표지가 부착된 학습데이터가 없거나 적더라도 오류 탐지를 수행할 수 있다. 따라서 이미 제작된 말뭉치가 아니라 말뭉치를 구축하는 과정에도 사용할 수 있다. 본 논문에서 제안하는 방법으로 수행된 오류 탐지를 검증하기 위하여 구문분석 말뭉치와 의미역 말뭉치를 사용하였다. 성능 평가의 척도는 정보검색에서 널리 사용되는 정밀도와 재현율을 사용하였다. 구문분석 말뭉치와 의미역 말뭉치에서 각각 65.15%와 69.46%의 재현율을 보였다. 이와 같은 결과를 바탕으로 제안한 모델을 사용하여 다양한 말뭉치의 오류 탐지를 수행할 수 있음을 알 수 있다. 재현율을 좀 더 향상시킬 수 있도록 자질 확장 등의 연구를 진행할 수 있을 것이다. 또한 말뭉치 구축 도구에 직접 적용하여 제안된 시스템이 얼마나 효율적인지도 평가할 계획이다. | - |
dc.description.tableofcontents | 제 1 장 서 론 1 제 2 장 관련 연구 3 2.1 오류 탐지 3 2.2 GMM 알고리즘 6 2.3 차원 축소 10 2.4 한국어 구문분석 말뭉치 11 2.5 한국어 의미역 말뭉치 13 제 3 장 오류 후보 탐지 시스템 15 3.1 문맥 표상 16 3.1.1 구문분석 말뭉치에서의 문맥 표상 16 3.1.2 의미역 말뭉치에서의 문맥 표상 17 3.2 문맥 표상의 차원 축소 19 3.3 GMM을 이용한 말뭉치에서의 오류 탐지 20 제 4 장 실험 및 평가 24 4.1 실험 데이터 24 4.2 실험 결과 26 제 5 장 결론 및 향후 연구 30 참고문헌 32 감사의 글 38 | - |
dc.format.extent | 47 | - |
dc.language | kor | - |
dc.publisher | 한국해양대학교 대학원 | - |
dc.rights | 한국해양대학교 논문은 저작권에 의해 보호받습니다. | - |
dc.title | GMM을 이용한 한국어 말뭉치에서의 오류 탐지 | - |
dc.type | Dissertation | - |
dc.date.awarded | 2020. 2 | - |
dc.contributor.alternativeName | Choi Min Seok | - |
dc.contributor.department | 대학원 컴퓨터공학과 | - |
dc.contributor.affiliation | 한국해양대학교 대학원 컴퓨터공학과 | - |
dc.description.degree | Master | - |
dc.identifier.bibliographicCitation | 최민석. (2020). GMM을 이용한 한국어 말뭉치에서의 오류 탐지. | - |
dc.subject.keyword | GMM, 군집화, 오류탐지, 구문분석 말뭉치, 의미역 말뭉치 | - |
dc.title.translated | Detecting Errors in Korean Corpus based on GMM | - |
dc.identifier.holdings | 000000001979▲200000001565▲200000283925▲ | - |
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.