1. 텍스트 임베딩 모델 아키텍처별 분류 및 사용도

아키텍처 유형 대표 모델 설명 활용 예시
1. 카운트 기반(Bag-of-Words, TF-IDF) TF-IDF 단어 빈도 기반 단순 통계 모델 검색엔진, 키워드 추출, 법률문서 필터링
2. 예측 기반 (Shallow NN) Word2Vec, FastText 주변 단어 예측(Word2Vec), subword 처리(fastText) 뉴스 유사도 분석, OOV 대응이 필요한 언어
3. 문맥 기반 RNN(Recurrent Neural Net 기반) ELMo BiLSTM 구조로 문맥 반영한 단어 임베딩 역사적 의미 있음. 실무 활용은 하락세
4. Transformer 기반 (Self-Attention) BERT, RoBERTa, T5, BART 문맥적 의미 반영, 사전학습 + 파인튜닝 감성 분석, QA 시스템, 요약, NER 등
5. 문장 임베딩 특화 구조(Bi-Encoder 구조) SBERT, USE 문장 간 유사도 효율적 계산 유사 질문 검색, 추천 시스템, 클러스터링
6. 특수 목적 임베딩 DPR, ColBERT, CLIP Dense retrieval, 멀티모달 임베딩 RAG, 이미지-텍스트 매칭, FAQ 검색
7. API 기반 모델 (SaaS 형태) OpenAI text-embedding-ada-002Cohere Embed 고성능 임베딩을 API 형태로 제공 벡터 검색, 분류, 대규모 유사도 분석
8. Instruction 기반 모델 Instructor, GTE 프롬프트로 task 유형 명시 가능 다목적 검색, 멀티태스크 유사도 계산
9. 멀티모달 통합 모델 CLIP (Text + Image) 이미지와 텍스트를 동일 벡터 공간에 임베딩 이미지 검색, 콘텐츠 필터링 등 비정형 데이터

2. 주요 아키텍처별 비교 정리

구조 유형 예시 모델 특징
Encoder-only BERT, RoBERTa, CamemBERT, XLM-RoBERTa [CLS] 또는 mean pooling 사용
Bi-Encoder/SBERT MiniLM, MPNet 빠르고 효율적인 문장 유사도
MoE Nomic Embed v2 고효율, 고성능 벡터
Encoder‑Decoder T5, BART 텍스트-생성/요약과 병행 가능
Multi-modal / re-ranker CLIP, ColBERT, JinaBERT 이미지-텍스트, re-ranking 지원

3. 주요 에이전트 프레임워크 임베딩 모듈 특징

CrewAI


LangChain / LangGraph


AutoGen (Microsoft)


4. CrewAI vs LangChain/LangGraph 임베딩 방식 비교

🛠️ 1. CrewAI – 직접 모델 호출 방식