Loading [MathJax]/jax/output/CommonHTML/jax.js

ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Salient Object Detection 논문정리 [2019]
    논문 정리 2021. 7. 13. 23:27
    반응형

    Salient Object Detection with Pyramid Attention and Salient Edges [CVPR 2019]

    [paper][code]

    • PAGE-Net을 제안
    • salient object영역에 더 attention을 주기 위해 essential pyramid attention structure구조를 제안하여 multi-scale saliency information을 잘 뽑게 함
    • salient edge detection module을 추가하여 edge영역을 더 잘 refine 함
    • 데이터셋은 ECCSD, DUT-OMRON, HKU-IS, PASCAL-S, SOD, DUTS-TE 사용

     

    * 그림 참고용

    * Pyramid Attention Module

    Pyramid Attention Module

    • 단순하게 입력 feature map을 downsampling 한 후 가각 softmax를 취한 뒤 원래 크기로 resize 함
    • 각 softmax 된 확률 맵을 모두 더함
    • 원래 feature map의 특정 spatial 정보를 강조하기 위해 hadamard product(element wise product) 진행
    • 각각 downsampling 크기에 따라 softmax 결과가 달라지는지 확인 필요
    • 수식으로 표현하면 : Yj=1NNn=1(1+lnj)Xj

     

    * Salient Edge Detector

    • Ik,Gk,Pk는 각각 color image, ground truth saliency map, ground truth salient object boundary map
    • 그림에서 F가 edge detection module, 단순 CNN 구조
    • F는 다음과 같이 ground truth salient object boundary map와 L2 loss로 학습되는 단순한 구조
    • LEdg(Pk,F(YIk))=||PkF(YIk)||22
    • R에 대한 설명이 안 보여서 확인 필요
    • 전체 loss는 5l=1(LSal(Glk,Rl(YlIk,Fl(YlIk)))+LEdg(Plk,Fl(YlIk)))
    • 아래는 전체 구조

    * Result

     

    DeepUSPS: Deep Robust Unsupervised Saliency Prediction With Self-Supervision [NIPS 2019]

    [paper][code]

    • DeepUSPS를 제안
    • 기본적으로 GT를 사용하지 않는 Self-Supervised 방식을 사용
    • 기존의 handcrafted 방식의 결과를 GT 삼아서 FCN을 학습하는 방식
    • 데이터셋은 MSRA-B, ECSSD, DUT, SED2 사용
    • 자세한 과정은 아래에 설명

    * Enforcing inter-images consistency with image-level loss

    • handcrafted 방식으로 결과를 출력하고 특정 threshold로 이진화를 수행
    • 이진화된 결과로 FCN을 학습함
    • 이때 precision, recall를 이용하는 image-level loss function을 사용하는데, 자세한 사항은 Appendix 참고

     

    * Historical moving averages (MVA)

    • 각각의 FCN의 예측값을 moving average 하는 과정
    • 모델의 예측값을 y, k를 epoch이라 하면 MVA는 아래와 같이 업데이트됨
    • MVA(x,p,k)=(1α)CRF(yj(x,p))+αMVA(x,p,k1)
    • 정리하면 예측값에 CRF(Conditional Random Field)를 적용하여 segmentation 맵을 정제하고 moving average로 좀 더 정확한 맵을 생성하는 느낌
    • CRF 관련 내용은 추후에 정리 예정

     

    * Incremental pseudo-labels refining via self-supervision

    • 위 과정의 반복
    • training 중 MVA를 계속 적용하여 MVA 값이 stable 해지는지 확인 (변동이 적은 지?)
    • stable 하다면 학습 종료, unstable 하다면 생성된 MVA를 새로운 GT로 계속해서 학습
    • stable의 기준점은 확인 필요

     

    * Result

     

    Employing Deep Part-Object Relationships for Salient Object Detection [ICCV 2019]

    [paper]

    * CapsNet 관련 내용 정리 중

     

    Structured Modeling of Joint Deep Feature and Prediction Refinement for Salient Object Detection [ICCV 2019]

    [paper][code]

    • message-passing 방식의 cascade CRF 아키텍처를 제안함
    • feature, prediction 사이의 message-passing을 추가한 구조
    • 데이터셋은 MSRA-B, ECSSD, PASCAL-S, DUT-OMRON, HKU-IS, iCoseg 사용

    • 구조가 생략된 부분이 많음
    • 기본 구조는 논문의 구조 (첫번째 그림의 윗줄 점선은 인코더, 두 번째 줄 점선은 디코더 부분으로 추정)
    • 결과적으로 CRF 모듈은 다음과 같이 정의됨
    • P(hl,ol|I,Θ)=1Z(I,Θ)exp{E(hl,ol,I,Θ)}
    • 이때 E=iϕh(hli,fli)+iϕo(sli,oli)+ijψh(hli,hl1j)+ψhsiϕhs(hli,ol1i)+ijψo(oli,olj)

     

    * Result

     

    EGNet: Edge Guidance Network for Salient Object Detection [ICCV 2019]

    [paper][code]

    • salient object의 edge를 잘 살리기 위해 EGNet을 제안함
    • salient edge information과 salient object information을 상호 보완적으로 학습 가능함
    • 데이터셋은 ECSSD, PASCAL-S, DUT-O, HKU-IS, SOD, DUTS-TE 사용

    * Non-local salient edge features extraction (NLSEM)

    • edge 정보는 인코더 (VGGNet) 레이어 초반부에서 추출 (해상도가 비교적 높은 영역이라)
    • 추출된 edge는 다음과 같이 표현 가능
    • FE=f(¯C(2);W(2)T),¯C(2)=C(2)+Up(ϕ(Trans(ˆF(6);θ));C(2))
    • $\widehat{ F } ^ { \left ( 6 \right )$ 정보를 사용한 이유는 high-level feature를 추가하기 위함

     

    * Progressive salient object features extraction (PSFEM)

    • 디코더 부분으로 Unet과 구조가 비슷함
    • 각각 Conv 레이어를 통과 후 feature는 아래와 같이 표현됨
    • ˆF(i)=f(C(i)+UpT(ˆF(i+1);θ,C(i));W(i)T)
    • 각 디코더 단계마다 GT랑 loss를 계산

     

    * One-to-one guidance module (O2OGM)

    • 단순하게 NLSEM에서 추출된 edge와 salient object 부분을 결합하는 과정
    • G(i)=UpT(ˆF(i);θ,FE)+FE,i[3,6]

     

    * Result

     

    Selectivity or Invariance: Boundary-aware Salient Object Detection [ICCV 2019]

    [paper]

    • boundary-aware network를 제안함
    • selectivity- invariance 딜레마 (논문 표현 : interior의 feature들은 전체적으로 salient object가 튀어나올 수 있도록 강한 외관의 변화에 따라 변하지 않아야 하며, boundary의 feature들은 눈에 띄는 물체와 배경을 구별할 수 있도록 약간의 외관의 변화로 선택되어야 한다.)
    • 전체적인 아이디어는 위 논문과 비슷
    • 데이터셋은 ECSSD, DUT-OMRON, PASCAL-S, HKU-IS, DUTS-TE, XPIE 사용

    * Boundary Localization

    • 단순하게 multi-scale feature로부터 edge 정보를 추출하는 과정
    • 수식으로는 ϕB(πB)

     

    * Ineterior Perception

    • ISD (integrated successive dilation) module을 사용함, 모듈의 구조는 아래 그림 참고
    • 수식으로는 ϕI(πI)
    • 실질적인 디코더 부분, Atrous Spatial Pyramid Pooling (ASPP의 변형 구조인 듯)

    ISD module

    * Transition Compensation

    • 앞선 두 stream과 달리 GT와 직접적인 학습이 일어나지 않고 Boundary-aware Feature Mosaic 부분에서 간접적으로 학습됨
    • 구조는 ISD 모듈과 거의 동일

     

    * Boundary-aware Feature Mosaic

    • selectivity와 invariance의 균형을 맞추는 게 목적
    • MB=Sig(ϕB),MI=Sig(ϕI) 이라고 하면 최종 출력은 아래와 같음
    • M=ϕB(1MI)MB+ϕIMI(1MB)+ϕT(1MI)(1MB)

     

    * Result

     

    Pyramid Feature Attention Network for Saliency detection [CVPR 2019]

    [paper][code]

     

    • 최근 방식들이 (예를 들어 위 논문들) multi-scale의 컨볼루션 feture들을 무분별하게 통합하는 방식을 채택한다는 점을 지적
    • SIFT에서 영감을 얻은 CPFE(Context-aware Pyramid Feature Extraction)을 제안
    • channel-wise attention (CA), spatial attention (SA)의 2가지 attention 적용
    • 데이터셋은 DUTS-test, ECSSD, HKU-IS, PASCAL-S, DUT-OMRON 적용

    • CPFE는 scale-invariant feature transform (SIFT)에서 영감을 받은 구조
    • SIFT는 여기 참고
    • 구조적으로 단순하게 각 feature 마다 atrous convolution을 적용한 것이 전부
    • 실제 SIFT와 역할이 비슷한지는 확인 필요
    • 다른 특징점으로는 CA는 high-level feature에 SA는 low-level feature에 적용
    • low-level feature에 spatial 정보가 많이 살아있음을 이용한 듯
    반응형

    댓글

Designed by black7375.