Transformer2 [Whisper] - Speech to Text Whisper : "음성인식 AI 모델"What is WHISPER?Whisper는 2022년 9월 Open AI에서 개발한 자동음성인식(ASR: Automatic Speech Recognition) 모델입니다. 음성데이터를 인식 후 문자로 변환해 주는 메커니즘을 갖추었습니다. 구체적으로 Whisper 모델의 특징을 아키텍처와 코드적용을 통해 확인해 보겠습니다.자세한 사항은 다음 논문을 참고하시면 됩니다.Robust Speech Recognition via Large-Scale Weak Supervision (Radford A. et. al, 2022)코드는 아래 깃허브와 코랩을 통해 확인하실 수 있습니다 . Description1. ArchitectureWav2vec는 self-supervised sp.. 2023. 5. 31. [PyTorch] Vision Transformer(ViT) 논문구현 Vision Transformer Paper Implementation with PyTorch : "An image is worth 16x16 words: Transformers for image recognition at scale(2020)" Code Practice : 아래 Colab 과 Git 링크를 통해 어떻게 구현되었는지 구체적으로 확인해 보실 수 있습니다. Description Vision Transformer(ViT)는 CNN이 아닌 Transformer만을 사용하여 이미지를 분류합니다. 여기서 Transformer의 Self-Attention과 Self embedding을 차용했습니다. ViT의 메커니즘은 다음과 같습니다. 먼저 input 이미지를 패치 단위로 분할하고, 각 패치를 lin.. 2023. 2. 16. 이전 1 다음