트랜스포미기반 한국어 의학용어 탐지 및 해석
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | 김재훈 | - |
dc.contributor.author | 염하람 | - |
dc.date.accessioned | 2024-01-03T17:29:50Z | - |
dc.date.available | 2024-01-03T17:29:50Z | - |
dc.date.created | 2023-03-03 | - |
dc.date.issued | 2023 | - |
dc.identifier.uri | http://repository.kmou.ac.kr/handle/2014.oak/13253 | - |
dc.identifier.uri | http://kmou.dcollection.net/common/orgView/200000670234 | - |
dc.description.abstract | 의학용어는 의학 분야에서 사용하는 전문 언어를 말한다. 의학용어의 대부분 은 이음동의어 형태를 가지며, 외국어에서 유래한 것이 많다. 긴 의학용어는 약어로 많이 사용되기 때문에 의학용어로 이루어진 문서를 대중이 보고 이해 하기에 어려움이 있다. 이러한 문제를 해결하기 위해 본 논문은 기계 번역 모 델을 이용한 의학용어를 자동으로 탐지하고 해석하는 모델을 제안한다. 기계 번역 모델에 적용하기 위해 다음과 같은 방법으로 병렬 말뭉치를 구축한다. 1) 의학용어 사전을 구축한다. 2)의학 문서를 수집한다. 3)의학 병렬 말뭉치를 제 작한다. 구축된 병렬 말뭉치를 이용하여 사전학습 언어모델과 트랜스포머기반 의학용어 탐지 및 해석모델을 구축한다. 의학 병렬 말뭉치의 문장은 음절 단위 로 토큰화한 후 KoCharELECTRA를 이용하여 표상을 얻는다. 의학용어 탐지 및 해석 모델은 평가 말뭉치에 존재하는 의학용어의 약 93%의 용어를 탐지했 다. 제안 모델의 BLEU 점수는 음절 및 어절 단위 각각 0.987 및 0.981, ROUGE 점수는 음절 및 어절 단위 각각 0.993 및 0.987로 높은 번역 성능을 보인다. 의학용어 탐지 및 해석 모델의 제안으로 비전문가인 대중이 의학 문서 를 쉽게 접하고 이해할 수 있을 것이다. | - |
dc.description.tableofcontents | 1. 서론 1 2. 관련연구 3 2.1 트랜스포머 모델 3 2.2 사전학습 언어모델 6 2.2.1 BERT 6 2.2.2 ELECTRA 6 2.3 미등록어 문제 7 2.4 OpenNMT 8 3. 의학 병렬 말뭉치 구축 10 3.1 말뭉치 제작의 전체 구조 10 3.2 의학용어 사전 제작 10 3.2.1 크롤링 11 3.2.2 이음동의어 처리 12 3.2.3 의학용어 재정의 12 3.2.4 의학용어 뜻풀이 추출 14 3.2.5 의학용어 사전의 일반용어 제거 15 3.3 의학 문서 수집 18 3.4 의학 병렬 말뭉치 제작 19 3.4.1 의학용어 공백 제거 19 3.4.2 의학 병렬 말뭉치 제작 20 3.5 의학 병렬 말뭉치 분석 21 4. 의학용어 탐지 및 해석 모델 23 4.1 토큰화 23 4.2 사전학습 모델을 이용한 탐지 및 해석 모델 24 5. 실험 및 평가 26 5.1 실험 환경 및 평가 척도 26 5.1.1 실험 환경 26 5.1.2 평가 척도 28 5.2 실험결과 28 5.2.1 탐지 평가 29 5.2.2 해석 평가 31 5.2.3 탐지 및 해석 예시 32 6. 결론 34 참고문헌 35 국문초록 37 | - |
dc.language | kor | - |
dc.publisher | 한국해양대학교 대학원 | - |
dc.rights | 한국해양대학교 논문은 저작권에 의해 보호받습니다. | - |
dc.title | 트랜스포미기반 한국어 의학용어 탐지 및 해석 | - |
dc.title.alternative | Detecting and Interpreting Korean Medical Terms Based on Transformer | - |
dc.type | Dissertation | - |
dc.date.awarded | 2023-02 | - |
dc.embargo.terms | 2023-03-03 | - |
dc.contributor.alternativeName | Yeom HaRam | - |
dc.contributor.department | 대학원 컴퓨터공학과 | - |
dc.contributor.affiliation | 한국해양대학교 대학원 컴퓨터공학과 | - |
dc.description.degree | Master | - |
dc.identifier.bibliographicCitation | 염하람. (2023). 트랜스포미기반 한국어 의학용어 탐지 및 해석. | - |
dc.subject.keyword | 전문용어 탐지, 전문용어 해석, 기계 번역, 트랜스포머 | - |
dc.identifier.holdings | 000000001979▲200000003272▲200000670234▲ | - |
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.