제안한 단안 카메라 깊이 추정 기술의 도식화. 제안한 방법은 트랜스포머(Transformer)의 형상(Shape) 편향 특징과 합성곱 신경망(CNN)의 질감(Texture) 편향 특징을 융합할 수 있도록 하는 하이브리드 네트워크이다. 제안된 방법은 합성곱 신경망을 통해 추출된 입력 영상의 특징들을 트랜스포머 인코더를 통해 다양한 해상도의 특징 지도로 변환시킨다. 이때, 기존 합성곱 신경망과 달리 트랜스포머의 전역적 자기-집중 방법을 통해 영상 내의 전체적인 문맥을 추출할 수 있었으며, 집중 연결 모듈(Attention Connection Module)을 통해 채널과 공간에 따른 집중도를 적절히 연결할 수 있도록 하였다. 이후, 특징 융합 디코더(Feature Fusion Decoder)를 통해, 다양한 해상도의 특징 지도를 효과적으로 융합함으로써, 전체적인 문맥과 영상 내의 엣지와 같은 세부적인 디테일을 보존한 깊이 추정 결과를 얻을 수 있도록 설계하였다. ⓒDGIST 제공 2023.12.12