주요 텍스트 임베딩 모델

1. 텍스트 임베딩 모델 아키텍처별 분류 및 사용도

아키텍처 유형	대표 모델	설명	활용 예시
1. 카운트 기반(Bag-of-Words, TF-IDF)	TF-IDF	단어 빈도 기반 단순 통계 모델	검색엔진, 키워드 추출, 법률문서 필터링
2. 예측 기반 (Shallow NN)	Word2Vec, FastText	주변 단어 예측(Word2Vec), subword 처리(fastText)	뉴스 유사도 분석, OOV 대응이 필요한 언어
3. 문맥 기반 RNN(Recurrent Neural Net 기반)	ELMo	BiLSTM 구조로 문맥 반영한 단어 임베딩	역사적 의미 있음. 실무 활용은 하락세
4. Transformer 기반 (Self-Attention)	BERT, RoBERTa, T5, BART	문맥적 의미 반영, 사전학습 + 파인튜닝	감성 분석, QA 시스템, 요약, NER 등
5. 문장 임베딩 특화 구조(Bi-Encoder 구조)	SBERT, USE	문장 간 유사도 효율적 계산	유사 질문 검색, 추천 시스템, 클러스터링
6. 특수 목적 임베딩	DPR, ColBERT, CLIP	Dense retrieval, 멀티모달 임베딩	RAG, 이미지-텍스트 매칭, FAQ 검색
7. API 기반 모델 (SaaS 형태)	OpenAI `text-embedding-ada-002`Cohere Embed	고성능 임베딩을 API 형태로 제공	벡터 검색, 분류, 대규모 유사도 분석
8. Instruction 기반 모델	Instructor, GTE	프롬프트로 task 유형 명시 가능	다목적 검색, 멀티태스크 유사도 계산
9. 멀티모달 통합 모델	CLIP (Text + Image)	이미지와 텍스트를 동일 벡터 공간에 임베딩	이미지 검색, 콘텐츠 필터링 등 비정형 데이터

구조 유형	예시 모델	특징
Encoder-only	BERT, RoBERTa, CamemBERT, XLM-RoBERTa	`[CLS]` 또는 mean pooling 사용
Bi-Encoder/SBERT	MiniLM, MPNet	빠르고 효율적인 문장 유사도
MoE	Nomic Embed v2	고효율, 고성능 벡터
Encoder‑Decoder	T5, BART	텍스트-생성/요약과 병행 가능
Multi-modal / re-ranker	CLIP, ColBERT, JinaBERT	이미지-텍스트, re-ranking 지원

임베딩 모듈 지원
- embedder 설정으로 OpenAI, Hugging Face, Google, MistralAI, Nvidia, Ollama 등의 모델을 지정 가능 community.crewai.com+15stackoverflow.com+15medium.com+15.
- 예: embedder={"provider":"openai","config":{"model":"nomic-embed-text-v1.5-f16"}} stackoverflow.com+3reddit.com+3community.crewai.com+3.
내부 동작 방식
- Knowledge Source(예: text file, 데이터베이스)를 자동으로 텍스트 chunking → 벡터 생성 → 저장(Chroma 등) 과정으로 처리 reddit.com+6community.crewai.com+6docs.crewai.com+6 community.crewai.com+2billtcheng2013.medium.com+2community.crewai.com+2.
- 사용자 정의 EmbeddingFunction 확장도 가능 medium.com+5community.crewai.com+5stackoverflow.com+5.

임베딩 모듈 지원
- OpenAIEmbeddings, HuggingFaceEmbeddings, SentenceTransformerEmbeddings 등 다양한 embedding 제공자 지원 stackoverflow.com+2medium.com+2community.crewai.com+2.
내부 동작 방식
- Chain 혹은 Graph 기반의 워크플로우 구성
  - LangChain: Chain(base) → 도구 호출 → vectorstore 연결로 RAG 구현
  - LangGraph: DAG 형태로 노드마다 임베딩 및 유사도 기능 포함 medium.com+12muegenai.com+12analyticsvidhya.com+12 medium.com langchain-ai.github.io.

임베딩 모듈 지원
- 문서 로딩 후 LangChain 기반 embedding 지원
- 직접 embedding 기능보다, LangChain/Chroma 연동하여 외부 환경에서 임베딩 수행 medium.com.
내부 동작 방식
- 대화 중심의 ConversableAgent 구조, 메시지 기반 멀티 에이전트 시뮬레이션 medium.com+1analyticsvidhya.com+1 ai.plainenglish.io.
- 에이전트 대화 중 RAG workflow를 외부 임베딩 → 검색 → 결과 산출 방식으로 임베딩 사용.