https://wikidocs.net/22654

HDFS

MapReduce

Hive

MapReduce vs Spark

Hive vs Trino, SparkSQL

하둡이란?

하둡이 맵리듀스, HDFS기능을 소개하면서 빅데이터를 분석하는 비용이 줄어들었다. 여기에 하둡이 오픈소스가 되고, 하둡을 이용한 에코시스템들이 늘어마녀서 빅데이터 분석 기술이 폭발적으로 발전할 수 있게 되었음.

기존의 RDB로는 대용량의 비정형 데이터를 처리하기가 힘들다는것을 깨닫고 구글의 GFS와 MapReduce관련 기술에서 시작한 오픈소스다. 아파치재단에서 관리하고 있음.

구글 GFS → HDFS

구글 MapReduce → MapReduce

구글 BigTable → HBase

하둡의 주요 구성요소

하이브란?