Artificial Intelligence/컴퓨터 비전 (CV)5 [PyTorch] Vision Transformer(ViT) 논문구현 Vision Transformer Paper Implementation with PyTorch : "An image is worth 16x16 words: Transformers for image recognition at scale(2020)" Code Practice : 아래 Colab 과 Git 링크를 통해 어떻게 구현되었는지 구체적으로 확인해 보실 수 있습니다. Description Vision Transformer(ViT)는 CNN이 아닌 Transformer만을 사용하여 이미지를 분류합니다. 여기서 Transformer의 Self-Attention과 Self embedding을 차용했습니다. ViT의 메커니즘은 다음과 같습니다. 먼저 input 이미지를 패치 단위로 분할하고, 각 패치를 lin.. 2023. 2. 16. [PyTorch] ResNet 논문구현 ResNet Paper Implementation : "Deep Residual Learning for Image Recognition.(2016)" Code Practice : 아래 Colab과 Git 링크를 통해 어떻게 구현 되었는지 구체적으로 확인해 보실 수 있습니다. Description ResNet의 특징: 1.Residual Block: ResNet의 가장 큰 특징 은 Residual Block 개념 적용입니다. Residual Block은 Convolutional layer(층)를 깊게 쌓으면서 발생하는 gradient vanishing 문제를 방지 할 수 있습니다. Residual block은 convolution layer를 통과한 결과값에 input 값인 x를 더해주는 과정을 의미합니다.. 2023. 2. 12. [PyTorch] VGGNet 논문구현 VGGNet Paper Implementation : "Very deep convolutional networks for large-scale image recognition.(2014)" Code Practice : 아래 Colab과 Git 링크를 통해 어떻게 구현 되었는지 구체적으로 확인해 보실 수 있습니다. Description VGG Network: VGG Networks는 총 6개로 구성되어 있으며 VGG11(A)과 VGG16(D)을 구현해 보았습니다. A = VGG-11, A-LRN = VGG-11(LRN), B = VGG-13,C = VGG-16(Conv1), D = VGG-16, E = VGG-19 Figure 1. VGGNet Architecture : Simonyan, K. & Ziss.. 2023. 2. 8. [PyTorch] GoogLeNet 논문구현 GoogLeNet (InceptionV1) Paper Implementation : "Going deeper with convolutions.(2014)" Code Practice : 아래 Colab과 Git 링크를 통해 어떻게 구현 되었는지 구체적으로 확인해 보실 수 있습니다. Description GoogLeNet의 특징: 1. GoogLeNet Architecture: GoogLeNet은 네트워크의 depth와 width를 늘리면서도 내부적으로 Inception Module을 활용해 computational efficiency를 확보하였습니다.VGGNet은 깊은 네트워크(deeper network)로 AlexNet보다 높은 성능을 얻었지만, 파라미터 측면에서 효율성이 떨어집니다.반면 GoogLeNe.. 2023. 2. 7. [PyTorch] AlexNet 논문구현 AlexNet Paper Implementation : "Imagenet classification with deep convolutional neural networks(2012)." Code Practice : 아래 Colab과 Git 링크를 통해 어떻게 구현 되었는지 구체적으로 확인해 보실 수 있습니다. Description 1. AlexNet Architecture: AlexNet의 Convolutional Layer는 5개로 구성되어 있으며, Fully Connected Layer는 3개로 구성되어 있습니다.Figure 1. AlexNet Architecture : Krizhevsky et al.(2012) 2. Activation Function : ReLU Function LeNet에서는 a.. 2023. 2. 6. 이전 1 다음