선박 사고는 매년 꾸준히 증가하고 있으며, 인적과실은 선박 사고의 원인 중 높은 비중을 차지하고 있다. 선박 사고는 선박의 구조 손상뿐 아니라 인명피해, 기름 유출로 인한 환경오염 등의 다양한 문제로 발전할 수 있다. 이에 따라 항해사의 의사결정을 돕는 시스템이 요구되고 있으며, IT 기술의 발전 및 신뢰도 향상으로 기존의 시스템을 무인화하기 위한 연구가 활발히 진행되고 있다. 강화학습은 행위자가 스스로 주변환경과 상호작용을 통하여 시행착오를 겪으며 보상을 최대로 받을 수 있는 최적의 행동을 찾는 기계학습의 한 분야이다. 강화학습기반의 충돌회피는 시행착오를 통해 보상을 최대로 받을 수 있는 충돌회피 경로를 탐색한다. 본 논문은 심층강화학습을 이용하여 국제 해상충돌 예방규칙인 COLREGs 규정을 준수하는 선박과 COLREGs 규정을 준수하지 않는 선박에 대해서 충돌회피 성능을 시뮬레이션하고 비교한다. 심층강화학습 기반의 선박은 센싱된 장애물(선박)의 위치 및 운동 정보를 기반으로 조우 상황을 판단하여 충돌회피에 대한 의사결정을 수행한다. 심층강화학습 기반의 COLREGs 규정을 준수하는 선박과 조우 상황, COLREGs 규정 준수하지 않고 사고를 유발하는 선박과의 조우상황 등에서의 학습을 통하여 기존의 규칙이나 경험치가 없이 충돌회피를 수행할 수 있음을 보인다.