임베딩 | Notion

1. 다양한 문서 형식 처리하기

1.1 PDF 문서 가져오기 (PyPDFLoader 활용)

설명: PyPDFLoader는 PDF 문서를 처리하여 텍스트를 추출하고 이를 LangChain에서 사용할 수 있는 형식으로 변환합니다. PDF는 텍스트, 이미지, 표 등이 포함될 수 있어 추가적인 전처리가 필요할 수 있습니다.
예시 코드:

from langchain.document_loaders import PyPDFLoader

loader = PyPDFLoader("example.pdf")
documents = loader.load()
print(documents[0].page_content)

활용법: 학술 논문, 계약서, 리포트 등 PDF 형식의 문서에서 중요한 정보를 추출하여 Q&A 시스템, 검색 엔진에 활용.

1.2 웹 문서 가져오기 (WebBaseLoader 활용)

설명: WebBaseLoader는 웹 페이지의 텍스트 데이터를 크롤링하여 가져옵니다. HTML 태그를 제거하고 텍스트만 추출합니다.
예시 코드:

from langchain.document_loaders import WebBaseLoader

loader = WebBaseLoader("<https://example.com>")
documents = loader.load()
print(documents[0].page_content)

활용법: 뉴스 기사, 블로그 게시물 등 동적인 웹 콘텐츠에서 실시간 데이터를 수집하여 검색 시스템에 통합.

1.3 JSON 문서 가져오기 (JSONLoader 활용)

설명: JSONLoader는 JSON 파일에서 데이터를 추출하여 LangChain에서 사용할 수 있는 문서 형식으로 변환합니다.
예시 코드:

from langchain.document_loaders import JSONLoader

loader = JSONLoader("example.json")
documents = loader.load()
print(documents[0].page_content)

활용법: REST API 응답, 로그 데이터 등 구조화된 JSON 데이터를 분석 및 검색에 활용.

1.4 CSV 문서 가져오기 (CSVLoader 활용)

설명: CSVLoader는 CSV 파일의 데이터를 읽어 텍스트 기반의 문서로 변환합니다.
예시 코드:

from langchain.document_loaders import CSVLoader

loader = CSVLoader("example.csv")
documents = loader.load()
print(documents[0].page_content)