한국해양대학교

Detailed Information

Metadata Downloads

다중 생성 단위의 관계 점수를 이용한 학습 말뭉치 생성

Title
다중 생성 단위의 관계 점수를 이용한 학습 말뭉치 생성
Alternative Title
Generation of Tagged Corpus Using Relationship Scores of Multiple Generative Units: A Focus on Generation of Named Entity Tagged Corpus
Author(s)
천민아
Keyword
말뭉치 생성GPT-2다중 작업 학습관계 점수주의집중 방법론
Issued Date
2021
Publisher
한국해양대학교 대학원
URI
http://repository.kmou.ac.kr/handle/2014.oak/12635
http://kmou.dcollection.net/common/orgView/200000376500
Abstract
제4차 산업혁명 시대를 맞이하여 AI와 빅데이터 기반의 연구가 활발하게 진행되고 있다. 자연언어처리 분야에서는 AI 시스템이 사람의 언어를 이해하는 기술을 실현하기 위해 활발한 연구를 진행하고 있다. 이를 위해서는 문장의 언어학적인 분석 정보를 구조화한 분석 말뭉치가 대량으로 필요하나, 한국어의 경우에는 영어, 중국어, 일본어에 비해 분석 말뭉치의 규모가 부족한 실정이다. 분석 말뭉치를 구축하는 방법은 수작업, 기계학습을 이용한 방법, 데이터 증강을 이용한 방법이 존재한다. 기존의 방법들은 분석 말뭉치를 구축하는데 시간적, 경제적 비용이 많이 들고 일관성과 신뢰성을 확보하는 일이 어렵다. 또한 수작업을 제외하고는 기존의 분석 말뭉치에 없는 미등록어나 새로운 분석 대상을 처리 능력이 부족하다는 한계점이 있다. 이런 점들을 완화하면서 대량의 분석 말뭉치를 확보하는 방법이 필요하다.
본 논문에서는 사람의 주관이 필요한 작업은 최소화하면서 일관성이 높은 분석 말뭉치를 확보하는 방법을 개체명 말뭉치 생성을 중심으로 제안한다. 본 논문에서 제안하는 방법은 문장 생성 연구에서 우수한 성능을 보이는 GPT-2의 구조를 다중 작업 학습이 가능하도록 수정하고, 다중 생성 단위 간의 관계 점수를 계산하는 신경망을 적용한다. 다중 생성 작업은 부분 단어, 품사 범주, 개체명 범주를 생성하는 작업으로 이루어져 있다. 주의집중 방법을 응용한 신경망을 이용하여 매 시점마다 생성 단위 간의 관계 점수 벡터를 만들어 최종 출력을 결정한다. 개체명 문장의 시작 열을 조건으로 주고, 시작 열 이후의 토큰 열을 완성하는 형태로 개체명 문장을 생성한다. 생성된 개체명 문장은 평균 혼잡도 이하일 때만 개체명 말뭉치에 추가된다.
제안하는 방법론으로 구축한 개체명 말뭉치의 문장 수는 40,000개이며 새롭게 등장한 개체명 단위의 수는 6,130개로 개체명 단위의 약 4.93%에 해당했다. 생성된 문장의 평균 참신성은 0.6074점, 다양성은 0.4635점으로 계산되었다. 생성된 개체명 말뭉치를 추가한 학습 말뭉치로 3종류의 개체명 인식기를 학습한 결과, 평균 정밀도가 76.81%에서 77.96%로 약 1.15%p 향상하였다. 평균 재현율은 71.49%에서 73.32%로 약 1.83%p 향상했다. 평균 -점수는 74.02%에서 75.57%로 약 1.55%p가 향상했다. 다중 생성 단위 간의 관계 점수를 고려한 결과 검증 기준의 통과율이 15% 증가한 결과를 보임으로써, 본 방법론이 유효함을 확인하였다. 입력 열을 길게 주어서 생성 후보의 혼잡도를 줄이거나, 검증 기준의 혼잡도를 높이는 방법을 통해 개체명 말뭉치의 양을 늘릴 수 있다.
본 연구는 분석 말뭉치를 자동으로 생성하는 연구의 기반 연구로서 의의가 있다.
Appears in Collections:
컴퓨터공학과 > Thesis
Files in This Item:
There are no files associated with this item.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse