A corpus is a collection of text in electronic form for linguistic research and is classified into two kinds: raw corpus and tagged corpus. The tagged corpus is analysed in various ways of morphological analysis, syntactic analysis, and so on. In Korean, there are insufficient tagged corpus compared to advanced research countries such as the United States, Japan, and China. Most projects for building tagged corpus are going on manually and/or semi-automatically and thus, require a lot of cost and effort.
In order to alleviate the burden, we propose a method for automatically augmenting the tagged corpus in focus on Korean named entity corpus. The proposed method is consists of three actions: synonym replacement, insertion, and deletion. In this paper, we use three different types of synonyms: co-hyponym, word-embedding, wiki named entity (NE). Also, the proposed method is consists of four steps. The first step is information extraction that make three synonym dictionaries, insertion dictionary, deletion dictionary, and contextual probability, which are needed for corpus augmentation. The second step is to select action candidates, which can be performed on sentences. The third step is to randomly perform actions. The final step is to determine whether or not to add generated sentences to the augmented corpus.
Through experiments, we have shown that the performance of named entity recognition could be improved by the augmented corpus and the proposed method should be practically used.
말뭉치란 언어 연구를 위하여 컴퓨터가 텍스트를 가공하고 처리하고 분석할 수 있는 형태로 모아 놓은 자료의 집합이다. 말뭉치는 가공 여부에 따라 원시 말뭉치와 분석 말뭉치로 나뉜다. 분석 말뭉치는 언어 연구에 사용되는 주요 자원으로 원시 말뭉치에 형태소 분석, 어휘, 품사 정보 등을 추가하여 인공적으로 가공한 것이다. 한국어의 경우 여타 연구 선진국인 미국, 일본, 중국 등과 달리 잘 정제된 분석 말뭉치가 충분하지 않다. 현재 대부분의 분석 말뭉치 구축 프로젝트는 사람이 인공적으로 가공하거나 반자동 방식으로 수행하기 때문에 많은 노력과 비용이 필요하다. 따라서, 이러한 비용을 최소화하기 위해 본 논문에서는 자동화된 한국어 개체명 말뭉치 확장 방법을 제안한다. 제안하는 방법은 유의어 대체, 삽입, 삭제 세 가지 동작으로 구성된다. 본 논문에서는 형제어, 표상 유의어, 위키 개체명 총 세 종류의 유의어를 사용한다. 또한, 제안하는 방법은 네 단계로 구성된다. 첫 번째 단계는 정보추출 단계로 말뭉치 확장에 필요한 세 종류의 유의어 사전과 삽입 사전, 삭제 사전 그리고 문맥정보를 제작하는 단계이다. 두 번째 단계는 말뭉치 확장 동작 후보 선정 단계로 기존 말뭉치 문장들에 대해 수행 가능한 동작들의 리스트를 생성하는 단계이다. 세 번째 단계는 말뭉치 확장 동작 수행 단계로 수행 가능 동작 리스트를 이용하여 무작위로 선정된 확장 동작을 수행하는 단계이다. 마지막 단계는 말뭉치 추가여부 결정 단계로 생성된 문장을 확장 말뭉치에 추가할지 여부를 결정하는 단계이다. 실험을 통해 제안하는 방법을 이용해 확장한 말뭉치를 추가하여 개체명 인식 문제에 성능이 향상됨을 보였고 제안하는 방법이 유효함을 검증하였다.