한국해양대학교

Detailed Information

Metadata Downloads

다중 생성 단위의 관계 점수를 이용한 학습 말뭉치 생성

DC Field Value Language
dc.contributor.advisor 김재훈 -
dc.contributor.author 천민아 -
dc.date.accessioned 2022-04-08T17:43:15Z -
dc.date.available 2022-04-08T17:43:15Z -
dc.date.created 20210311144357 -
dc.date.issued 2021 -
dc.identifier.uri http://repository.kmou.ac.kr/handle/2014.oak/12635 -
dc.identifier.uri http://kmou.dcollection.net/common/orgView/200000376500 -
dc.description.abstract 제4차 산업혁명 시대를 맞이하여 AI와 빅데이터 기반의 연구가 활발하게 진행되고 있다. 자연언어처리 분야에서는 AI 시스템이 사람의 언어를 이해하는 기술을 실현하기 위해 활발한 연구를 진행하고 있다. 이를 위해서는 문장의 언어학적인 분석 정보를 구조화한 분석 말뭉치가 대량으로 필요하나, 한국어의 경우에는 영어, 중국어, 일본어에 비해 분석 말뭉치의 규모가 부족한 실정이다. 분석 말뭉치를 구축하는 방법은 수작업, 기계학습을 이용한 방법, 데이터 증강을 이용한 방법이 존재한다. 기존의 방법들은 분석 말뭉치를 구축하는데 시간적, 경제적 비용이 많이 들고 일관성과 신뢰성을 확보하는 일이 어렵다. 또한 수작업을 제외하고는 기존의 분석 말뭉치에 없는 미등록어나 새로운 분석 대상을 처리 능력이 부족하다는 한계점이 있다. 이런 점들을 완화하면서 대량의 분석 말뭉치를 확보하는 방법이 필요하다. 본 논문에서는 사람의 주관이 필요한 작업은 최소화하면서 일관성이 높은 분석 말뭉치를 확보하는 방법을 개체명 말뭉치 생성을 중심으로 제안한다. 본 논문에서 제안하는 방법은 문장 생성 연구에서 우수한 성능을 보이는 GPT-2의 구조를 다중 작업 학습이 가능하도록 수정하고, 다중 생성 단위 간의 관계 점수를 계산하는 신경망을 적용한다. 다중 생성 작업은 부분 단어, 품사 범주, 개체명 범주를 생성하는 작업으로 이루어져 있다. 주의집중 방법을 응용한 신경망을 이용하여 매 시점마다 생성 단위 간의 관계 점수 벡터를 만들어 최종 출력을 결정한다. 개체명 문장의 시작 열을 조건으로 주고, 시작 열 이후의 토큰 열을 완성하는 형태로 개체명 문장을 생성한다. 생성된 개체명 문장은 평균 혼잡도 이하일 때만 개체명 말뭉치에 추가된다. 제안하는 방법론으로 구축한 개체명 말뭉치의 문장 수는 40,000개이며 새롭게 등장한 개체명 단위의 수는 6,130개로 개체명 단위의 약 4.93%에 해당했다. 생성된 문장의 평균 참신성은 0.6074점, 다양성은 0.4635점으로 계산되었다. 생성된 개체명 말뭉치를 추가한 학습 말뭉치로 3종류의 개체명 인식기를 학습한 결과, 평균 정밀도가 76.81%에서 77.96%로 약 1.15%p 향상하였다. 평균 재현율은 71.49%에서 73.32%로 약 1.83%p 향상했다. 평균 -점수는 74.02%에서 75.57%로 약 1.55%p가 향상했다. 다중 생성 단위 간의 관계 점수를 고려한 결과 검증 기준의 통과율이 15% 증가한 결과를 보임으로써, 본 방법론이 유효함을 확인하였다. 입력 열을 길게 주어서 생성 후보의 혼잡도를 줄이거나, 검증 기준의 혼잡도를 높이는 방법을 통해 개체명 말뭉치의 양을 늘릴 수 있다. 본 연구는 분석 말뭉치를 자동으로 생성하는 연구의 기반 연구로서 의의가 있다. -
dc.description.tableofcontents 1. 서론 1 1.1. 연구 배경과 목적 1 1.2. 연구 내용과 방법 4 1.3. 논문 구성 7 2. 관련 연구 10 2.1. 개체명 인식 10 2.2. 심층신경망의 구조 21 2.3. 언어 모델과 문장 생성 28 2.3.1. 언어 모델 28 2.3.2. 문장 생성 30 2.4. 다중 작업 학습 33 2.5. 평가 척도 35 3. seqGAN-MTL을 이용한 개체명 말뭉치 생성 39 3.1. 초기 개체명 말뭉치 구축 과정 40 3.2. seqGAN-MTL의 개체명 말뭉치 생성 과정 41 3.2.1. seqGAN-MTL의 전체 구조 43 3.2.2. seqGAN-MTL의 알고리즘 44 3.2.3. seqGAN-MTL의 생성기 47 3.2.4. seqGAN-MTL의 판별기 50 3.3. seqGAN-MTL의 한계 51 4. seqGAN-GPT-MTL을 이용한 개체명 말뭉치 생성 54 4.1. seqGAN-GPT-MTL의 개체명 말뭉치 생성 과정 54 4.2. GPT-MTL의 구조 56 4.3. 실험 및 분석 61 4.3.1. 초매개변수 정보 (seqGAN-MTL과 GPT-MTL) 61 4.3.2. 생성된 개체명 문장들의 통계 정보 63 4.3.3. 참신성과 다양성 평가 결과 66 4.3.4. 개체명 인식기의 성능 평가 결과 66 4.3.5. 새로운 개체명이 포함된 문장의 예시 71 4.3.6. 생성된 문장의 오류 유형 72 4.4. seqGAM-GPT-MTL 방법의 문제점 74 5. 다중 생성 단위 간의 관계 점수를 고려한 개체명 말뭉치 생성 76 5.1. 선행 연구를 통한 연구 방향의 재정립 77 5.2. GPT-rs-MTL의 개체명 말뭉치 생성 과정 79 5.3. GPT-rs-MTL의 구조 81 5.4. 실험 및 분석 84 5.4.1. GPT-rs-MTL의 초매개변수 정보 84 5.4.2. 생성된 개체명 문장들의 통계 정보 86 5.4.3. 참신성과 다양성 평가 결과 92 5.4.4. 개체명 인식기의 성능 평가 결과 94 5.4.5. 새로운 개체명이 포함된 문장의 예시 100 5.4.6. 다중 생성 단위의 관계 점수의 효과 검증 102 5.5. GPT-rs-MTL의 한계점 104 5.6. 개체명 문장을 생성하기 위한 전략 105 6. 결론 및 향후 연구 107 6.1. 결론 107 6.2. 향후 연구 109 6.3. 연구의 기여 111 -
dc.language kor -
dc.publisher 한국해양대학교 대학원 -
dc.rights 한국해양대학교 논문은 저작권에 의해 보호받습니다. -
dc.title 다중 생성 단위의 관계 점수를 이용한 학습 말뭉치 생성 -
dc.title.alternative Generation of Tagged Corpus Using Relationship Scores of Multiple Generative Units: A Focus on Generation of Named Entity Tagged Corpus -
dc.type Dissertation -
dc.date.awarded 2021. 2 -
dc.embargo.liftdate 2021-03-11 -
dc.contributor.alternativeName Cheon, Minah -
dc.contributor.department 대학원 컴퓨터공학과 -
dc.contributor.affiliation 한국해양대학교 대학원 컴퓨터공학과 -
dc.description.degree Doctor -
dc.identifier.bibliographicCitation [1]천민아, “다중 생성 단위의 관계 점수를 이용한 학습 말뭉치 생성,” 한국해양대학교 대학원, 2021. -
dc.subject.keyword 말뭉치 생성 -
dc.subject.keyword GPT-2 -
dc.subject.keyword 다중 작업 학습 -
dc.subject.keyword 관계 점수 -
dc.subject.keyword 주의집중 방법론 -
dc.title.partName 개체명 말뭉치 생성을 중심으로 -
dc.identifier.holdings 000000001979▲200000001935▲200000376500▲ -
Appears in Collections:
컴퓨터공학과 > Thesis
Files in This Item:
There are no files associated with this item.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse