기본 개념

OpenAI 가 개발한 멀티모달 AI 모델입니다. 텍스트와 이미지를 함께 이해하도록 설계되었습니다.

CLIP은 크게 두 가지 신경망, 즉 **Vision Encoder(이미지 인코더)**와 **Text Encoder(텍스트 인코더)**로 구성됩니다

주요 활용 분야

ViT

ViT는 Vision Transformer(비전 트랜스포머)의 약자로, 컴퓨터 비전을 위해 설계된 트랜스포머 모델입니다. 이미지를 이해하고 처리하는 데 사용되며, 특히 이미지 분류, 객체 감지, 생성 모델링과 같은 다양한 시각 작업에서 뛰어난 성능을 보입니다.

ViT에 대한 자세한 설명은 다음과 같습니다.