본문 바로가기

Generative AI2

[Whisper] - Speech to Text Whisper : "음성인식 AI 모델"What is WHISPER?Whisper는 2022년 9월 Open AI에서 개발한 자동음성인식(ASR: Automatic Speech Recognition) 모델입니다. 음성데이터를 인식 후 문자로 변환해 주는 메커니즘을 갖추었습니다. 구체적으로 Whisper 모델의 특징을 아키텍처와 코드적용을 통해 확인해 보겠습니다.자세한 사항은 다음 논문을 참고하시면 됩니다.Robust Speech Recognition via Large-Scale Weak Supervision (Radford A. et. al, 2022)코드는 아래 깃허브와 코랩을 통해 확인하실 수 있습니다 . Description1. ArchitectureWav2vec는 self-supervised sp.. 2023. 5. 31.

[DALL-E] - Image Generation "DALL - E: 텍스트 기반 이미지 생성 AI 모델"What is DALL-E ?DALL-E란 스페인 초현실주의 작가인 'Salvador Dali'와애니메이션 'WaLL-E'의 합성어입니다.DALL-E는 Text(문자)를 input으로 입력 받아 Image(그림)로 생성해 내는 생성형 인공지능(Gen AI)입니다.Large Language Model(거대언어모델)인 GPT3와 마찬가지로 DALL-E 또한 Transformer 기반 Language Model입니다.1. 생성형 인공지능이란?최근 사회 전반에 활용되는 대표적인 생성형 인공지능은 텍스트 AI인 "Chat GPT(Open AI)"가 있습니다. 생성형 인공지능은 문자 뿐만 아니라 이미지 및 영상, 음성 등 다양한 데이터를 사용할.. 2023. 4. 30.

이전 1 다음

티스토리툴바