논문 정리
-
Taming Transformers for High-Resolution Image Synthesis논문 정리 2023. 12. 16. 20:03
VQ-GAN을 이해하기 위해서는 VAE(Variational Auto-Encoder)와 VQ-VAE에 대한 지식이 필요하다. 1. VAE VAE의 대략적인 구조는 위와 같다. Input image $x$를 인코더에 통과시켜 latent vector $z$를 생성하고, $z$를 다시 디코더에 통과시켜 기존 input $x$와 비슷하지만 새로운 이미지 $x$를 찾아내는 구조이다. 그렇다면 auto-encoder와의 차이점은 무엇인가? 위 그림과 같이 auto-encoder는 특정 입력 이미지를 잘 임베딩 하여 원본 이미지로 복원하는 과정을 학습한다. 즉 feature 추출과 압축을 위한 과정을 학습한다. 반면 VAE는 어떠한 latent space가 원하는 이미지를 만들어 내는지 그 확률 분포를 학습한다. ..
-
DDPM: Denoising Diffusion Probabilistic Model논문 정리 2023. 11. 29. 18:37
DDPM이 무엇인지는 너무 유명하니 패스한다. DDPM에서 설명하는 diffusion 방식은 아래 그림과 같다. 먼저 DDPM은 이미지에 작은 가우시안 노이즈를 더하는 과정의 역과정 (즉 노이즈를 제거하는 과정) 역시 가우시안 분포로 모델링이 가능하다는 가정으로 시작한다. 즉 다시 말하면 normal distribution에 대한 노이즈가 주어졌을 때 이를 어떻게 복원할 것인가에 대한 문제를 모델이 해결하는 것이다. 먼저 $t$ 시간 이미지 $X_t$에 노이즈 $I$를 더하는 과정의 확률분포 $q \left ( X _ { t } \mid X _ { t-1 } \right ) $는 다음과 같다. $q \left ( X _ { t } \mid X _ { t-1 } \right ) = \mathcal{N} \..
-
Object-Centric Learning with Slot Attention논문 정리 2023. 3. 25. 18:29
이 논문에서는 CNN을 사용하여 복잡한 장면의 객체 중심 표현(object-centric representation)을 학습하는 새로운 방법을 소개한다. 이 방법 슬롯이라고 하는 task-dependent abstract representation을 생성하는 slot attention module을 사용한다. 이러한 슬롯은 반복적인 attention 과정을 통해 업데이트가 가능하며 모든 입력 feature와 상호작용한다. 이 논문은 slot attention이 unsupervised object discovery 및 supervised property prediction task에 대해 학습할 때 보이지 않는 구성에 대한 일반화를 가능하게 하는 객체 중심 표현을 추출할 수 있음을 보여준다. 또한 이 논문..
-
SuperPoint: Self-Supervised Interest Point Detection and Description논문 정리 2022. 3. 9. 18:27
SuperPoint를 설명하기 앞서 이미지 특징점 (keypoint)란 무엇인지 알아야 한다. 이미지 keypoint이란 말 그대로 이미지에서 특징이 되는 부분을 의미한다. 이미지 매칭 시, 즉 이미지끼리 서로 매칭이 되는지 확인을 할 때 각 이미지에서의 특징이 되는 부분끼리 비교를 한다. 보통 특징점이 되는 부분은 물체의 모서리나 코너인데, 그래서 대부분의 특징점 검출을 코너 검출을 바탕으로 하고 있다. 이러한 keypoint는 크게 samantic keypoint와 interset point로 나뉘는데, samantic keypoint는 그림과 같이 사람의 골격, 물체의 의미론적인 특정 위치를 기반으로 하기 때문에 정의하기가 쉽지만 interset point의 경우 모서리, 꼭짓점과 같은 low-le..
-
Salient Object Detection 논문정리 [2021]논문 정리 2021. 8. 22. 23:47
Pyramidal Feature Shrinking for Salient Object Detection [AAAI 2021] leaping feature fusion 문제를 해결 이는 FPN에서 주로 발생하는 문제인데 노이즈 많은 low-level feature와 high-level feature가 결합되어 성능이 떨어진다는 것임 이를 해결하기 위해 pyramid shrinking decoder (PSD) 제안 Locate Globally, Segment Locally: A Progressive Architecture With Knowledge Review Network for Salient Object Detection [AAAI 2021] 인간이 물체를 감지하는 방식을 모방함 물체의 대략적인 위치를 먼..
-
Salient Object Detection 논문정리 [2020]논문 정리 2021. 7. 24. 00:05
Progressive Feature Polishing Network for Salient Object Detection [AAAI 2020] PFPN (Progressive Feature Polishing Network) 제안 ECSSD, HKU-IS, PASCAL-S, DUT-OMRON, DUTS 데이터셋 사용 구조적으로 앞선 논문들과 비교하여 큰 특징은 없는듯 논문의 주요 contribution은 The Feature Polishing Module (FPM)인데 인코더 각 부분의 feature를 점진적으로 통합 시켜서 성능을 높이는 방식 * Result Weakly-Supervised Salient Object Detection via Scribble Annotations [CVPR 2020] 특이하..
-
Salient Object Detection 논문정리 [2019]논문 정리 2021. 7. 13. 23:27
Salient Object Detection with Pyramid Attention and Salient Edges [CVPR 2019] [paper][code] PAGE-Net을 제안 salient object영역에 더 attention을 주기 위해 essential pyramid attention structure구조를 제안하여 multi-scale saliency information을 잘 뽑게 함 salient edge detection module을 추가하여 edge영역을 더 잘 refine 함 데이터셋은 ECCSD, DUT-OMRON, HKU-IS, PASCAL-S, SOD, DUTS-TE 사용 * 그림 참고용 * Pyramid Attention Module 단순하게 입력 feature ma..
-
Monocular Depth Estimation 논문 정리논문 정리 2020. 12. 1. 18:04
1. Structured Attention Guided Convolutional Neural Fields for Monocular Depth Estimation [CVPR 2018] Conditional Random Field (CRF)을 모델에 적용한다. 또한 multi-scale feature들을 학습하기 위해 attention mechanism을 사용한다. 데이터셋은 NYU Depth V2와 KITTI 데이터셋에서 평가된다. Contribution은 다음과 같이 요약된다. Front-end CNN과 multi-scale CRF을 통합하여 모델을 end-to-end로 학습할 수 있다. Attention mechanism을 통해 multiple-scale feature로부터 structured info..