https://wikidocs.net/22654
HDFS
MapReduce
Hive
MapReduce vs Spark
Hive vs Trino, SparkSQL
하둡이란?
하둡이 맵리듀스, HDFS기능을 소개하면서 빅데이터를 분석하는 비용이 줄어들었다. 여기에 하둡이 오픈소스가 되고, 하둡을 이용한 에코시스템들이 늘어마녀서 빅데이터 분석 기술이 폭발적으로 발전할 수 있게 되었음.
기존의 RDB로는 대용량의 비정형 데이터를 처리하기가 힘들다는것을 깨닫고 구글의 GFS와 MapReduce관련 기술에서 시작한 오픈소스다. 아파치재단에서 관리하고 있음.
구글 GFS → HDFS
구글 MapReduce → MapReduce
구글 BigTable → HBase
하둡의 주요 구성요소
- Hadoop Coomon
- 하둡의 다른 모듈을 지원하기 위한 공통 컴포넌트 모듈
- Hadoop HDFS
- 분산저장을 처리하기 위한 모듈 (파일 시스템)
- 여러개의 서버를 하나의 서버처럼 묶어서 데이터를 저장할 수 있게 한다.
- Hadoop YARN
- 병렬처리를 위한 클러스터 자원관리 및 스케쥴링을 담당하는 모듈
- 하둡 V2부터 도입됨.
- 기존 잡트래커의 역할 중 클러스터 자원관리는 리소스 매니저와 노드매니저 / 애플리케이션 라이프사이클 관리는 애플리케이션 마스터와 컨테이너에게 담당하도록 함.
- Hadoop Ozone
하이브란?