관리 메뉴

TEAM EDA

High-Resolution Representations for Labeling Pixels and Regions (HRNetV2) 본문

EDA Study/3줄 논문요약

High-Resolution Representations for Labeling Pixels and Regions (HRNetV2)

김현우 2021. 8. 12. 20:38

Resource

Motivation & Introduction

Vision Task에서 High-Resolution representation learning은 중요한 역할을 한다. 하지만, 기존의 연구들의 대부분은 low-resolution 혹은 medium-resolution으로부터 High-Resolution을 복원하거나 dilated convolution을 통해서 medium-resolution을 계산하는게 전부이다. 비록 이렇게 resolution을 줄여야 receptive field도 늘어나고 계산 복잡도도 감소하기는 하지만 성능적인 측면에서 문제가 있다. 이를 극복하려는 시도로 High-Resolution을 그대로 유지하면서 Semantic Segmentation, Object Detection, Pose estimation을 시도하는게 HRNetv2 이다.

Methodology

High-Resolution을 유지하는 핵심적인 부분으로 multi-resolution group convolution과 multi-resolution convolution 두가지를 통해 multi-scale을 통합하는 작업을 진행한다. (high - medium - low resolution이 모두 통합되는 작업)

Experiments & Results

다양한 데이터셋에 대해서 SOTA 성능을 달성했다. 실제로 Semantic Segmentation 뿐만 아니라 Object Detection, Human Pose Estimation에서도 좋은 성능을 보인다.