한국해양대학교

Detailed Information

Metadata Downloads

기계학습을 이용한 음절기반 품사 부착

Title
기계학습을 이용한 음절기반 품사 부착
Alternative Title
Korean Part-of-Speech Tagging Based on Syllables
Author(s)
전길호
Issued Date
2012
Publisher
한국해양대학교 대학원
URI
http://kmou.dcollection.net/jsp/common/DcLoOrgPer.jsp?sItemId=000002174714
http://repository.kmou.ac.kr/handle/2014.oak/8789
Abstract
인터넷의 급속한 발전으로 각종 포털 사이트의 게시판, 카페, 동호회, 블로그 등에는 수많은 문서가 생성되고 있다. 예를 들어 개인 블로그에는 관심분야에 따른 수많은 정보들이 게시되고 있고, 각종 동호회 게시판에는 동호회의 목적과 관련된 수많은 정보 등이 매일 게시되고 있다. 이렇게 많은 문서들은 분석과 분류를 통해 보다 많은 사람들에게 중요한 정보로 활용될 수 있고, 이러한 이유로 문서의 분석 및 분류와 같은 정보처리의 필요성이 대두되고 있다. 이러한 필요성에 따라 많은 학자들이 문서를 보다 정확하게 분석하고 분류하기 위한 방법들을 연구하고 제안하며 실제로 사용되고 있다(Manning et al., 2010). 이러한 수많은 방법들 중에서 형태소 분석 및 품사 부착은 문서를 분석하고 분류하여 정보로 활용하기 위한 여러 방법들의 공통된 최하위 단계에 속한다.

형태소 분석이란 입력된 문서에 대해 형태소의 변형과 분리 경계를 결정하는 문제를 처리하는 과정으로 언어적 특성에 맞게 구현된다(Dale, etal., 2000). 특히 한국어는 내용어와 기능어의 결합으로 다양한 형태의 변형이 발생된다(서정수, 1996). 이러한 이유로 한국어 형태소 분석기는 영어와 같은 외국어 형태소 분석기 보다 복잡한 구조를 가지고 있다 용언에 대한 형태소 분석은 활용 처리, 불규칙 처리, 음운현상 처리 등 매우 복잡한 과정을 포함하고 있다.

. 이렇게 복잡한 구조의 형태소 분석기를 설계하고 구현하기 위해서는 복잡한 지식과 방대한 사전정보가 요구된다(김재훈, 이공주, 2003). 뿐만 아니라 매우 까다로운 구현과정을 거치기 때문에 유지보수를 한다는 것은 형태소 분석기를 구현하는 것만큼 어려운 것이 현실이다.

그러나 일부 정보검색 시스템은 주어진 문장에서 명사만 추출하여 색인하는데 응용분야에 따라서는 모든 종류의 형태소 분석결과를 필요로 하지 않는다. 또한 품사부착은 형태소 분석에서 발생된 여러 분석 결과를 주어진 문장에 가장 적합한 분석을 선택하여 여러 응용분야에 사용된다.

이러한 문제들을 해결하국어 품사를기 위해 음절단위로 한 부착한 연구(심광섭, 2011)가 있으나 복합명사를 분석하기 어려우며 규칙을 사용하기 때문에 규칙의 모호성 문제가 존재한다.

본 논문에서는 이와 같은 문제를 해결하고자 기계학습 기법을 이용한 음절기반 품사 부착 방법을 제안한다. 이 방법은 언어처리 시스템이나 대량의 사전정보를 이용하여 형태소 분석을 하지 않고 기계학습 도구를 이용하여 음절단위로 품사 부착이 가능한 학습모델을 생성하여 입력된 문장을 음절단위로 음절품사를 부착하고 어절경계를 표시하여 복합명사의 분석이 가능하다. 음절품사가 부착된 문장은 음절 복원기를 통해 음절의 원형 복원 결과를 얻는다. 음절을 복원하는 과정에서 발생하는 모호성 문제는 Naï
ve Bayes 분류기를 이용해서 해결한다. 본 논문에서 제안하는 형태소 분석 및 품사부착은 기계학습 기법을 이용하고 있으며, 구현이 쉽고 간단하기 때문에 단기간 내에 구현할 수 있으며, 복잡한 구조를 가진 기타 품사 부착기와 비슷한 수준의 성능을 가지고 있다.

본 논문의 구성은 다음과 같다. 2장에서 기존의 형태소 분석 및 품사 부착 방법들과 음절기반 언어 처리 방법들에 대해 살펴보고, 3장에서 기계학습에 필요한 학습말뭉치의 가공방법에 대해 살펴본다. 4장에서 기계학습을 이용한 음절 기반 형태소 분석에 대해 논하며 5장에서는 본 논문에서 제안한 방법으로 구현한 시스템의 성능을 평가한다. 마지막으로 6장에서 결론을 맺고 앞으로의 연구 방향을 제시한다.
Appears in Collections:
컴퓨터공학과 > Thesis
Files in This Item:
000002174714.pdf Download

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse