Hadoop Ecosystem
Hadoop
Big Data
- HDFS: Hadoop Distributed File System
- 클러스터의 하드 드라이브를 하나의 거대한 파일 시스템으로 통합
- 자동 복제 및 장애 조치 기능 제공
- YARN: Yet Another Resource Negotiator
- 클러스터의 리소스를 관리하고 작업을 스케줄링
- MapReduce: 데이터 처리 모델
- 데이터를 분할하고 병렬로 처리하는 프레임워크
- Map 단계에서 데이터를 필터링하고 정렬, Reduce 단계에서 집계 및 요약
- Pig: 데이터 흐름 언어
- SQL과 유사한 스크립트 언어로 MapReduce / TEZ를 위한 데이터 처리 작업을 작성
- Hive: SQL과 유사한 쿼리 언어
- 대규모 데이터 세트에 대한 쿼리 및 분석을 위한 SQL 인터페이스 제공
- Ambari: 데이터 시각화 도구
- Hadoop 클러스터에서 데이터를 시각화하고 대시보드를 생성
- HBase: NoSQL 데이터베이스
- 대규모 데이터 세트를 실시간으로 읽고 쓸 수 있는 분산형 데이터베이스
- storm: 실시간 데이터 처리
- 스트림 데이터를 실시간으로 처리하고 분석하는 프레임워크