전체 글
-
Understanding LSTM Networks [번역]머신러닝, 딥러닝 공부 2020. 5. 22. 18:08
Recurrent Neural Networks 인간은 매 순간마다 처음부터 생각을 시작하지 않는다. 이 에세이를 읽으면서 당신은 이전의 단어에 대한 이해를 바탕으로 단어 하나하나를 이해하게 된다. 모든 것을 버리고 다시 처음부터 생각하기 시작하는 것이 아니다. 너의 생각은 끈기가 있다. 기존의 neural network은 이것을 할 수 없고, 그것은 주요한 단점처럼 보인다. 예를 들어, 영화의 모든 순간에서 어떤 종류의 사건이 일어나고 있는지 분류하고 싶다고 상상해 보자. 기존의 neural network가 어떻게 영화의 이전 사건들에 대한 추론을 사용하여 이후의 사건들을 예측할 수 있을지는 불분명하다. Recurrent neural network은 이 문제를 해결한다. 그것들은 루프가 있는 네트워크로 ..
-
Perceptual Losses for Real-Time Style Transfer and Super-Resolution머신러닝, 딥러닝 공부 2020. 5. 16. 13:54
1. Overview 본 논문은 per-pixel loss function를 사용하는 대신 image transformation task에 대한 feed-forward network를 훈련하기 위한 perceptual loss function의 사용을 제안한다. Per-pixel loss function 개별 픽셀 값을 기준으로 두 영상 비교. 따라서, 만약 두 개의 이미지가, perceptually 동일하지만, 한 픽셀에 기초하여 서로 다르다면, per-pixel loss function에 기초하여 서로 매우 다를 것이다. Perceptual loss functions 사전 구성된 Convolutional Neural Networks(이미지 분류 작업에 대해 교육됨, ImageNet Dataset)의 ..
-
You Only Look Once: Unified, Real-Time Object Detection머신러닝, 딥러닝 공부 2020. 3. 9. 12:44
1. Unified Detection YOLO의 핵심은 unified detection이다. 기존의 R-CNN은 이미지 내의 2000개의 bounding box후보를 선정하고 각 bounding box안 모든 영역에 대해 calssification을 진행해서 매우 느리고 복잡했다. 그에 비해 YOLO(You Only Look Once)는 이미지를 한 번 보는 것으로 object의 종류와 위치를 추측한다. single convolutional network를 통해 multiple bounding box에 대한 class probablility를 계산하는 방식이다. YOLO의 object detection 과정은 Input image를 S X S grid로 나누는 것에서 시작한다. 각각의 grid cell은..
-
Multi-Scale Context Aggregation by Dilated Convolutions머신러닝, 딥러닝 공부 2020. 3. 7. 14:34
논문에서 다루고 있는 내용은 크게 다음과 같다. Dilated Convolution Front-end module Multi-Scale Context Aggregation (The Context Module) Results 1. Dilated Convolution 왼쪽은 일반적인 convolution, 오른쪽은 dilated convolution이다. l의 값에 따라 convolution결과를 표현하면 아래와 같다. 위에서는 l=2일 때 dilated convolution의 예를 설명한다. 여기서 receptive field가 일반적인 convolution과 비교했을 때 더 크다는 것을 알 수 있다. Dilated convolution을 사용하여 얻을 수 있는 이점은 큰 receptive field를 취..
-
Fully Convolutional Networks for Semantic Segmentation머신러닝, 딥러닝 공부 2020. 3. 1. 13:28
classification 및 detection 과제에 비해 segmentation은 훨씬 어려운 작업이다. Image Classification: 이미지 내에서 개체를 분류(개체 클래스 인식) Object Detection: 경계 상자가 있는 영상 내에서 객체를 분류하고 탐지한다. 그것은 또한 각 물체의 등급, 위치, 크기를 알 필요가 있다는 것을 의미한다. Semantic Segmentation: 영상 내의 각 픽셀에 대한 객체 클래스를 분류한다. 이것은 각 픽셀에 대한 라벨이 있다는 것을 의미한다. 논문에서 설명하고자 하는 내용은 다음과 같다. From Image Classification to Semantic Segmentation Upsampling Via Deconvolution Fusing ..
-
An Introduction to different Types of Convolutions in Deep Learning [번역]머신러닝, 딥러닝 공부 2020. 2. 27. 23:59
다양한 종류의 convolution과 그 이점에 대해 간략하게 설명하겠다. 단순함을 위해서, 오직 2D convolution에만 초점을 맞추고 있다. Convolutions 첫째로, 우리는 convolutional 계층을 정의하는 몇 가지 매개변수를 정의할 필요가 있다. Kernel Size : 커널 크기는 convolution의 field of view를 정의한다. 2D의 경우 일반적으로 3x3 픽셀이 선택된다. Stride : stride는 이미지를 통과할 때 커널의 step size로 정의한다. 기본값은 보통 1이지만 MaxPooling과 유사한 이미지를 다운 샘플링하는 데 2의 stride를 사용할 수 있다. Padding : padding은 샘플의 테두리를 처리하는 방법을 정의한다. 패딩 된 c..
-
Up-sampling with Transposed Convolution [번역]머신러닝, 딥러닝 공부 2020. 2. 18. 19:48
원문 : https://medium.com/activating-robotic-minds/up-sampling-with-transposed-convolution-9ae4f2df52d0 Up-sampling with Transposed Convolution If you’ve heard about the transposed convolution and got confused what it actually means, this article is written for you. medium.com 만약 여러분이 transposed convolution에 대해 듣고 그것이 실제로 무엇을 의미하는지 혼란스러워했다면, 이 글은 여러분을 위해 쓰인 것이다. 이 글의 내용은 다음과 같다: The Need for Up-sa..
-
Accelerating the Super-Resolution Convolutional Neural Network머신러닝, 딥러닝 공부 2020. 2. 16. 17:19
Introduction FSRCNN은 비교적 얕은 네트워크를 가지고 있어 각 구성 요소의 영향에 대해 더 쉽게 알 수 있다. 아래 그림과 같이 이전 SRCNN보다 더 빠르고 성능이 좋다. SRCNN과 FSRCNN-s를 비교함으로써 FSRCNN-s(소형 모델 버전 FSRCNN)은 PSNR(image quality)이 더 우수하고 43.5 fps로 훨씬 빠르다. SRCNN-Ex(A better SRCNN)와 FSRCNN을 비교함으로써 FSRCNN은 PSNR이 더 우수하고 16.4 fps의 훨씬 짧은 실행 시간을 갖는다. 이 논문에서 다루는 내용은 아래와 같다. Brief Review of SRCNN FSRCNN Network Architecture Explanation of 1×1 Convolution Us..