영어 감정사전의 감정 점수 전파를 통한 한국어 감정사전 제작
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | 김재훈 | - |
dc.contributor.author | 박호민 | - |
dc.date.accessioned | 2019-12-16T03:09:53Z | - |
dc.date.available | 2019-12-16T03:09:53Z | - |
dc.date.issued | 2019 | - |
dc.identifier.uri | http://repository.kmou.ac.kr/handle/2014.oak/11886 | - |
dc.identifier.uri | http://kmou.dcollection.net/common/orgView/200000180562 | - |
dc.description.abstract | 요즘 사람들은 자신의 개인적인 감정과 의견을 표현하기 위해 소셜 네트워크 서비스를 주로 이용한다. 따라서 여론 조사나 시장 동향 등을 파악하기 위해 감정분석을 위한 데이터로 자주 사용된다. 감정분석은 문서 또는 대화 상에서 주어진 주제에 대한 태도와 의견을 이해하는 자동화된 프로세스이다. 감정분석의 다양한 접근법 중 하나는 감정사전을 이용하는 사전기반 접근법이다. 그러나 소셜 네트워크 서비스에서의 많은 게시물들에는 감정사전에 존재하지 않는 단어가 많아 사전기반 방식으로 분석하기 어렵다. 따라서 감정분석을 효과적으로 수행하기 위하여, 감정사전의 확장 또는 새로운 감정사전 제작이 요구된다. 본 논문에서는 검증된 영어 감정사전인 VADER의 감정사전을 활용하여 한국어 감정사전을 자동으로 생성하는 방법을 제안한다. 제안하는 방법은 세 단계로 구성된다. 첫 번째 단계는 한영 병렬 말뭉치를 사용하여 한영 이중언어사전을 제작한다. 이중언어사전은 VADER 감정어와 한국어 형태소 쌍들의 집합이다. 두 번째 단계는 이중언어사전을 사용하여 이중언어그래프를 생성한다. 그래프의 정점은 VADER 감정어와 한국어 형태소를 사용하고, 간선 연결은 이중언어사전 및 동일 언어의 동의어 순으로 구성된다. 세 번째 단계는 이중언어그래프 상에서 레이블 전파 알고리즘을 실행한다. 그래프 상의 모든 정점들의 값이 수렴될 때까지 레이블 전파 알고리즘을 반복적으로 적용하여 끝으로 새로운 감정사전이 제작된다. 제안하는 방법으로 제작된 감정사전을 검증하기 위하여 사전기반의 한국어 감정분석 시스템을 구축하였다. VADER 감정분석 시스템에서의 발견법적 접근을 한국어의 특성에 맞춰 변화하여 적용시켰다. 평가 자료로는 뉴스 기사의 댓글을 모아놓은 KMU 감정 말뭉치, 영화평을 모아놓은 네이버 감정 영화 말뭉치 두 개를 사용하였다. 평가 결과, KMU 감정 말뭉치에서는 81%의 정확도를 보였으며 네이버 감정 영화 말뭉치에서는 72%의 를 달성하였다. 이와 같은 결과를 통해 제안하는 방법이 새로운 감정사전 제작과 감정분석에 있어서 효과적임을 알 수 있다. 향후에는 기계학습, 심층학습을 적용하여 연구를 진행할 예정이다.|Nowadays, people express their personal feelings and opinions on social media, and such the posts or reviews are frequently used as the data for the sentiment analysis to order to identify public opinions, market trends, and so on. Sentiment analysis is the automated process of understanding an attitudes and opinion about a given topic from written or spoken text. One of the sentiment analysis approaches is a dictionary-based approach, in which a sentiment dictionary plays an important role. However, many posts on the social media cannot be analyzed by dictionary-based approach due to the absence of sentiment words in the dictionary. Therefore the sentiment dictionary should be expanded or built in totally new domains. In this paper, we propose a method to automatically create a Korean sentiment lexicon from the verified English sentiment lexicon called VADER sentiment lexicon. The proposed method consists of three steps. The first step is to produce a Korean–English bilingual lexicon using the Korean–English parallel corpus. The bilingual lexicon is a set of pairs between VADER sentiment words and Korean morphemes. The second step is to generate a bilingual graph using the bilingual lexicon. The vertex on the graph is a word (VADER sentiment words or Korean morphemes), and the edge is a pair of words, which are in the bilingual lexicon or belongs to synonyms for the same language. The third step is to run the label propagation algorithm throughout the bilingual graph. Finally a new Korean sentiment lexicon is created by repeatedly applying the propagation algorithm until the values of all vertices converge. To validate the sentiment lexicon generated by the proposed method, we made a dictionary-based Korean sentiment classifier with some heuristic rules, which is quite similar to the VADER sentiment classifier in English, but most of its rules have been specially adapted to suit Korean characteristics. The resources used for evaluating the classifier are two Korean sentiment corpus: news article and movie review. The accuracy of 81% and the F-score of 72% for the news article corpus and the movie review corpus are achieved, respectively. Through the evaluation, we have observed that the proposed method is pretty good and very effective. In the future, we will have more experiments for comparing the performance of various approaches like a machine learning-based approach, a deep learning-based approach, and so on. | - |
dc.description.tableofcontents | 제 1 장 서 론 1 제 2 장 관련 연구 4 2.1 감정분석 4 2.1.1 데이터 수집 4 2.1.2 주관성 탐지 5 2.1.3 극성 탐지 6 2.2 감정사전 7 2.2.1 사전 기반 감정사전 7 2.2.2 말뭉치 기반 감정사전 9 2.2.3 집단지성 기반 감정사전 12 2.3 VADER 감정사전 14 제 3 장 감정 점수 전파를 통한 감정사전 제작 18 3.1 한영 이중언어사전 제작 19 3.1.1 한영 병렬 말뭉치 토큰화 19 3.1.2 상호정보량 행렬 제작 20 3.1.3 코사인 유사도를 통한 이중언어사전 제작 24 3.2 한국어 fastText 표상 모델 제작 26 3.3 한영 이중언어그래프 제작 27 3.4 감정 점수 전파 31 제 4 장 실험 및 평가 37 4.1 제작 과정의 발견법적(heuristic) 접근의 검증 37 4.2 제작된 감정사전의 검증 38 4.2.1 감정분석 시스템 39 4.2.2 감정분석 시스템을 활용한 감정 말뭉치 감정분석 41 제 5 장 결론 및 향후 연구 45 참고문헌 47 감사의 글 55 | - |
dc.format.extent | 67 | - |
dc.language | kor | - |
dc.publisher | 한국해양대학교 대학원 | - |
dc.rights | 한국해양대학교 논문은 저작권에 의해 보호받습니다. | - |
dc.title | 영어 감정사전의 감정 점수 전파를 통한 한국어 감정사전 제작 | - |
dc.type | Dissertation | - |
dc.date.awarded | 2019-02 | - |
dc.contributor.alternativeName | Park, Ho-Min | - |
dc.contributor.department | 대학원 컴퓨터공학과 | - |
dc.description.degree | Master | - |
dc.subject.keyword | 감정사전,감정분석,PMI,단어표상,코사인유사도,레이블전파, Sentiment lexicon, Sentiment analysis, PMI (Point-wise mutual information), Word embedding, Cosine similarity, label propagation | - |
dc.title.translated | Developing a Korean sentiment lexicon through sentiment score propagation of English sentiment lexicon | - |
dc.contributor.specialty | 자연언어처리 | - |
dc.identifier.holdings | 000000001979▲200000001028▲200000180562▲ | - |
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.