SBERT Quick Start + LangChain

https://python.langchain.com/docs/integrations/text_embedding/sentence_transformers/?utm_source=chatgpt.com

https://huggingface.co/sentence-transformers

프로젝트 생성 및 가상환경 실행

uv init
uv run main.py

라이브러리 설치

uv add sentence-transformers langchain-huggingface langchain-chroma fiftyone

sentence-transformers : hugging face에서 관리하는 텍스트 임베딩 / 리랭크 모델

langchain-huggingface : Langchain - huggingface를 잇는 역할을 하는 라이브러리

chromadb : 임베딩된 벡터를 저장하는 DB

fifyone : 이미지, 비디오 데이터셋 시각화 및 분석 툴킷, huggingface와 통합 지원

HuggingFace만 이용한 SBERT 진행

#1. 모델 로드 
import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"

from sentence_transformers import SentenceTransformer
import fiftyone as fo
import numpy as np

model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')

#2. 임베딩할 문장 준비
sentences = [
    "반갑습니다. 제 이름은 조현진입니다.",
    "안녕하세요. 저는 조현진이에요.",
    "오늘 날씨는 맑습니다."
]

#3. 모델 이용해 문장 임베딩 진행
embeddings = model.encode(sentences)
print(embeddings.shape)

#4. 임베딩 유사도 결과 확인
similarity_matrix = model.similarity(embeddings, embeddings)
print(similarity_matrix)

#5. FittyOne을 사용한 유사도 결과 시각화 - 진행 안함
# dataset = fo.Dataset("sentence_similarity")

# 샘플 추가
# for i, sentence in enumerate(sentences):
#     sample = fo.Sample(
#       filepath=f"sample_{i}.txt",
#       text=sentence,
#       embedding=embeddings[i].tolist()
#   )
#   dataset.add_sample(sample)

# 시각화 실행
#session = fo.Session(dataset=dataset)
#session.launch()

결과

shape 의 출력결과인 (3, 384) 는 3개의 문장을 임베딩했고, 각 임베딩된 벡터의 차원수가 384라는 의미입니다.

tensor는 문장 임베딩 벡터들 간의 코사인 유사도(cosine similarity) 행렬입니다.