LAN_GCN을 활용한 한국어 혐오표현 탐지
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | 김재훈 | - |
dc.contributor.author | 박경수 | - |
dc.date.accessioned | 2024-01-03T17:28:39Z | - |
dc.date.available | 2024-01-03T17:28:39Z | - |
dc.date.created | 2023-03-03 | - |
dc.date.issued | 2023 | - |
dc.identifier.uri | http://repository.kmou.ac.kr/handle/2014.oak/13129 | - |
dc.identifier.uri | http://kmou.dcollection.net/common/orgView/200000668033 | - |
dc.description.abstract | 인터넷 이용률은 계속 증가하고 있고 우리는 수많은 글을 접하게 된다. 좋은 정보를 주는 글도 많지만 그만큼 혐오표현이 사용된 악성 댓글과 같은 글에도 많이 노출되고 이는 사회적으로 많은 문제가 된다. 혐오표현을 막기 위한 제도적인 노력도 있었으나 혐오표현으로 인한 문제는 완화되지 않았다. 최근에는 심층학습을 이용하여 혐오표현을 탐지하는 연구가 진행되고 있다. 국외에서는 활발한 연구가 이루어지고 있지만, 국내에서는 연구가 미비한 실정이다. 본 논문에서는 한국어에 대해 혐오표현을 탐지하는 심층학습 모델인 LAN_GCN 모델을 제안한다. 제안하는 모델은 사전학습된 언어 모델을 기반으로 토큰화하고 표상된 문장을 입력받고 GCN(Graph Covolutional Network) 층과 LAN(Label Attention Network) 층을 순차적으로 통과하여 문장의 표지에 대해 예측한다. 공개된 말뭉치인 Korean HateSpeech 말뭉치에 대해 제안 모델은 거시 F1 점수 64.0%을 달성하여 기준 모델보다 10%p 향상된 성능을 보였다. 추후 공개된 영어 혐오표현 말뭉치에도 적용해본 뒤 더 나아가 다른 문서 분류 작업에도 적용하여 성능을 검증할 예정이다. | - |
dc.description.tableofcontents | 1. 서론 1 2. 관련 연구 5 2.1 사전 학습된 언어 모델 5 2.1.1 BERT 기반의 사전학습된 언어 모델 5 2.1.2 ELECTRA 기반의 사전학습된 언어 모델 8 2.2 심층 신경망 9 2.2.1 순환 신경망 9 2.2.2 합성곱 신경망 10 2.2.3 그래프 합성곱망 10 2.3 표지 주의집중망 11 2.4 혐오표현 탐지 12 3. 실험 모델 14 3.1 기준 모델 14 3.2 LAN_Linear 모델 16 3.3 LiGCN 모델 17 3.4 LAN_GCN 모델 20 4. 실험 및 평가 22 4.1 한국어 혐오표현 말뭉치 22 4.2 실험 환경 및 평가지표 24 4.2.1 실험 환경 24 4.2.2 평가지표 25 4.3 실험 결과 및 평가 26 4.3.1 모델 성능 평가 26 4.3.2 캐글 기반의 성능 평가 28 4.4 오류 분석 30 5. 결론 및 향후 연구 33 참고문헌 35 국문초록 37 | - |
dc.language | kor | - |
dc.publisher | 한국해양대학교 대학원 | - |
dc.rights | 한국해양대학교 논문은 저작권에 의해 보호받습니다. | - |
dc.title | LAN_GCN을 활용한 한국어 혐오표현 탐지 | - |
dc.title.alternative | Korean Hate Speech Detection using LAN_GCN | - |
dc.type | Dissertation | - |
dc.date.awarded | 2023-02 | - |
dc.embargo.terms | 2023-03-03 | - |
dc.contributor.department | 대학원 컴퓨터공학과 | - |
dc.contributor.affiliation | 한국해양대학교 대학원 컴퓨터공학과 | - |
dc.description.degree | Master | - |
dc.identifier.bibliographicCitation | 박경수. (2023). LAN_GCN을 활용한 한국어 혐오표현 탐지. | - |
dc.subject.keyword | 심층학습, GCN, 혐오표현 탐지, 표지 주의집중망, 문장 분류 | - |
dc.identifier.holdings | 000000001979▲200000003272▲200000668033▲ | - |
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.