관리 메뉴

TEAM EDA

Object Region Mining with Adversarial Erasing: A Simple Classification toSemantic Segmentation Approach (AE-PSL) 본문

EDA Study/3줄 논문요약

Object Region Mining with Adversarial Erasing: A Simple Classification toSemantic Segmentation Approach (AE-PSL)

김현우 2021. 8. 17. 22:49

Resources

Motivation & Introduction

기존 Weakly-Semantic segmentation 에서 pesudo mask를 생성하기위해서 CAM을 많이 사용합니다. 하지만, 이러한 CAM은 Classification Network에 의한 결과로 Object의 일부분만을 바라보는 현상이 있고 이를 바로 pesudo mask로 적용하기에는 무리가 있습니다. 이를 해결하기위해 CAM이 바라보는 가장 중요한 영역을 지우고 Classification Network를 다시 학습하면 지워진 영역 다음으로 중요한 영역이 CAM에 의해서 나올 것입니다. 이를 수렴이 되지 않을때까지 반복해서 만든 영역들을 모두 합치게 되면 제대로된 Pesudo mask가 만들어진다는 것이 해당 논문의 핵심 아이디어입니다. 예시로, 위의 그림에서처럼 1번째 학습에서는 강아지의 얼굴이 가장 중요하다고 나오고 이를 지우고 다시 학습하게 되면 몸통이, 그 다음은 다리가 중요하다고 나와서 이 3가지 결과를 모두 합치면 강아지라는 클래스에 대한 pesudo mask가 만들어진다는 것입니다.

Methodology


방법론으로는 위의 그림과 수식을 보면 명확히 이해가 될 것입니다. 첫번째로 AE라는 Adversarial Erasing 단계입니다. 먼저, 입력 이미지와 클래스 레이블에 대해서 Classification Network를 학습합니다. 이때 만들어진 CAM의 결과를 입력이미지에서 제거하고 제거한 이미지를 다시 학습하는 과정을 반복해서 거치게 됩니다. 그림에서는 3번이지만 알고리즘 상으로는 네트워크 자체가 제대로 수렴할때까지 반복해서 위의 과정을 거쳐서 최종 결과인 The Mined Object Region을 생성하게 됩니다.


하지만, 일반적으로 위의 과정만으로 생성된 pesudo mask는 부정확한 부분이 많습니다. 배경에 대한 부분도 모호하고 Object의 경계가 되는 영역들의 경우는 제대로 레이블이 되지 않았을 가능성이 높습니다. 그렇기에 위의 그림처럼 AE에 결과에 PSL이라는 아이디어를 추가해서 Classification 결과를 Segmentation Mask에 곱해서 새로운 Pesudo mask를 만드는 방법을 사용합니다.

Experiments & Results


성능적인 측면에서도 SOTA 모델을 달성했을 정도로 좋은 성능을 보여주었습니다.

Discussion

하지만, 몇가지 의문점과 아쉬운 점이 남는 논문이었습니다.

  • 첫째, 학습이 AE 과정마다 일어나기에 너무 많은 학습을 거쳐야하는 문제가 있습니다.
  • 둘째, AE와 PSL이 분리되어있기에 네트워크가 AE를 다 거치고 Segmentation Network가 학습하면서 PSL을 또 만들어서 학습해야하는 문제가 있습니다. (2-stage에서도 +alpha가 있는 느낌입니다)
  • 셋째, AE과정을 언제 멈춰야할지에 대한 의문이 있습니다. 이미지마다 AE 과정이 달라야할 것 같고 학습이 수렴하지 않을때까지 학습한다는데 이 표현도 되게 모호한 표현이어서 해당 부분에 대한 아쉬움이 있습니다. 실제 Fig5의 (b) 이미지의 경우 AE-Step2가 적정스탭이었는데 이를 3이상으로 가다보니 더 안좋아진게 아닌가 싶습니다.