| 아키텍처 유형 | 대표 모델 | 설명 | 활용 예시 |
|---|---|---|---|
| 1. 카운트 기반(Bag-of-Words, TF-IDF) | TF-IDF | 단어 빈도 기반 단순 통계 모델 | 검색엔진, 키워드 추출, 법률문서 필터링 |
| 2. 예측 기반 (Shallow NN) | Word2Vec, FastText | 주변 단어 예측(Word2Vec), subword 처리(fastText) | 뉴스 유사도 분석, OOV 대응이 필요한 언어 |
| 3. 문맥 기반 RNN(Recurrent Neural Net 기반) | ELMo | BiLSTM 구조로 문맥 반영한 단어 임베딩 | 역사적 의미 있음. 실무 활용은 하락세 |
| 4. Transformer 기반 (Self-Attention) | BERT, RoBERTa, T5, BART | 문맥적 의미 반영, 사전학습 + 파인튜닝 | 감성 분석, QA 시스템, 요약, NER 등 |
| 5. 문장 임베딩 특화 구조(Bi-Encoder 구조) | SBERT, USE | 문장 간 유사도 효율적 계산 | 유사 질문 검색, 추천 시스템, 클러스터링 |
| 6. 특수 목적 임베딩 | DPR, ColBERT, CLIP | Dense retrieval, 멀티모달 임베딩 | RAG, 이미지-텍스트 매칭, FAQ 검색 |
| 7. API 기반 모델 (SaaS 형태) | OpenAI text-embedding-ada-002Cohere Embed |
고성능 임베딩을 API 형태로 제공 | 벡터 검색, 분류, 대규모 유사도 분석 |
| 8. Instruction 기반 모델 | Instructor, GTE | 프롬프트로 task 유형 명시 가능 | 다목적 검색, 멀티태스크 유사도 계산 |
| 9. 멀티모달 통합 모델 | CLIP (Text + Image) | 이미지와 텍스트를 동일 벡터 공간에 임베딩 | 이미지 검색, 콘텐츠 필터링 등 비정형 데이터 |
| 구조 유형 | 예시 모델 | 특징 |
|---|---|---|
| Encoder-only | BERT, RoBERTa, CamemBERT, XLM-RoBERTa | [CLS] 또는 mean pooling 사용 |
| Bi-Encoder/SBERT | MiniLM, MPNet | 빠르고 효율적인 문장 유사도 |
| MoE | Nomic Embed v2 | 고효율, 고성능 벡터 |
| Encoder‑Decoder | T5, BART | 텍스트-생성/요약과 병행 가능 |
| Multi-modal / re-ranker | CLIP, ColBERT, JinaBERT | 이미지-텍스트, re-ranking 지원 |
embedder 설정으로 OpenAI, Hugging Face, Google, MistralAI, Nvidia, Ollama 등의 모델을 지정 가능 community.crewai.com+15stackoverflow.com+15medium.com+15.embedder={"provider":"openai","config":{"model":"nomic-embed-text-v1.5-f16"}} stackoverflow.com+3reddit.com+3community.crewai.com+3.EmbeddingFunction 확장도 가능 medium.com+5community.crewai.com+5stackoverflow.com+5.OpenAIEmbeddings, HuggingFaceEmbeddings, SentenceTransformerEmbeddings 등 다양한 embedding 제공자 지원 stackoverflow.com+2medium.com+2community.crewai.com+2.