아키텍처 유형 | 대표 모델 | 설명 | 활용 예시 |
---|---|---|---|
1. 카운트 기반(Bag-of-Words, TF-IDF) | TF-IDF | 단어 빈도 기반 단순 통계 모델 | 검색엔진, 키워드 추출, 법률문서 필터링 |
2. 예측 기반 (Shallow NN) | Word2Vec, FastText | 주변 단어 예측(Word2Vec), subword 처리(fastText) | 뉴스 유사도 분석, OOV 대응이 필요한 언어 |
3. 문맥 기반 RNN(Recurrent Neural Net 기반) | ELMo | BiLSTM 구조로 문맥 반영한 단어 임베딩 | 역사적 의미 있음. 실무 활용은 하락세 |
4. Transformer 기반 (Self-Attention) | BERT, RoBERTa, T5, BART | 문맥적 의미 반영, 사전학습 + 파인튜닝 | 감성 분석, QA 시스템, 요약, NER 등 |
5. 문장 임베딩 특화 구조(Bi-Encoder 구조) | SBERT, USE | 문장 간 유사도 효율적 계산 | 유사 질문 검색, 추천 시스템, 클러스터링 |
6. 특수 목적 임베딩 | DPR, ColBERT, CLIP | Dense retrieval, 멀티모달 임베딩 | RAG, 이미지-텍스트 매칭, FAQ 검색 |
7. API 기반 모델 (SaaS 형태) | OpenAI text-embedding-ada-002 Cohere Embed |
고성능 임베딩을 API 형태로 제공 | 벡터 검색, 분류, 대규모 유사도 분석 |
8. Instruction 기반 모델 | Instructor, GTE | 프롬프트로 task 유형 명시 가능 | 다목적 검색, 멀티태스크 유사도 계산 |
9. 멀티모달 통합 모델 | CLIP (Text + Image) | 이미지와 텍스트를 동일 벡터 공간에 임베딩 | 이미지 검색, 콘텐츠 필터링 등 비정형 데이터 |
구조 유형 | 예시 모델 | 특징 |
---|---|---|
Encoder-only | BERT, RoBERTa, CamemBERT, XLM-RoBERTa | [CLS] 또는 mean pooling 사용 |
Bi-Encoder/SBERT | MiniLM, MPNet | 빠르고 효율적인 문장 유사도 |
MoE | Nomic Embed v2 | 고효율, 고성능 벡터 |
Encoder‑Decoder | T5, BART | 텍스트-생성/요약과 병행 가능 |
Multi-modal / re-ranker | CLIP, ColBERT, JinaBERT | 이미지-텍스트, re-ranking 지원 |
embedder
설정으로 OpenAI, Hugging Face, Google, MistralAI, Nvidia, Ollama 등의 모델을 지정 가능 community.crewai.com+15stackoverflow.com+15medium.com+15.embedder={"provider":"openai","config":{"model":"nomic-embed-text-v1.5-f16"}}
stackoverflow.com+3reddit.com+3community.crewai.com+3.EmbeddingFunction
확장도 가능 medium.com+5community.crewai.com+5stackoverflow.com+5.OpenAIEmbeddings
, HuggingFaceEmbeddings
, SentenceTransformerEmbeddings
등 다양한 embedding 제공자 지원 stackoverflow.com+2medium.com+2community.crewai.com+2.