하둡(Hadoop) 세부: 빅데이터 처리 (1/2)
Updated:
- 빅데이터 처리
- 처리 방식의 종류(배치, 대화형, 실시간)
- 처리 솔루션
하둡의 디테일한 내용을 다루기 전에 빅데이터 처리에 대한 내용으로 시작해보자.
처리방식의 종류
- 배치 처리(Batch Processing)
- 일괄처리와 같은 말로 주기적으로 작업을 처리하는 방식이다.(일일,주간,월간…)
- 답변을 얻기까지 일정 시간이 소요됨.
- 배치 처리의 대표적인 툴(MapReduce, Hive, Pig)
ETL(Extract, Transfrom, Load) -> 데이터 분석
- 배치 스케줄링에는 스크립트와 타이머가 필요함.
- Unix/Linux: cron, at
- Windows: Job Scheduler
- 대화형 처리(Interactive Processing)
- 원하는 질의에 대해 수 초내에 답을 얻는 형태.
- 사용자의 명령을 받아 실행하고 출력.(사용자와 시스템 사이에 인터페이스가 존재한다고 생각하면 된다.)
- 대화형 처리의 대표적인 툴(Hive의 대화형 모드, Pig의 대화형 모드, Spark의 대화형 모드)
- 실시간 처리(Real-time Processing)
- 1초 ~ 수초 미만의 실시간 처리 및 이벤트성 응답
- 데이터가 수집되는 즉시 실시간 전처리/계산/패턴 분석
- In-Memory 기반
- 결제, 이상거래 탐지등의 분석에 사용
- 실시간 처리의 대표적인 툴(Storm, Spark Streaming)
처리 솔루션
- 아파치 소프트웨어 파운데이션(Apache)
1999년 설립된 비영리 재단으로 하둡과 하둡 에코시스템을 개발했고, 빅데이터와 관련된 오픈소스 프로젝트를 수행하여 그 결과를 무료로 공유. (앞 자료의 하둡 에코시스템 이미지 참고)
- 클라우데라(Cloudera)
2008년 설립되었고 하둡과 하둡 에코시스템의 소프트웨어를 클라우데라만의 노하우를 가지고 ‘클라우데라 하둡(CDH) 배포판’ 제공한다. 아파치와의 시스템과 유사하지만 그들만의 일부 솔루션 제공.
- 호튼웍스(Hortonworks)
2011년에 설립되어 하둡 플랫폼 설계, 구축, 테스트에 적극 참여. 하둡 개발 및 컨설팅을 진행하고 ‘HDP 배포판’ 제공한다.
- 마이크로소프트 애저(Azure)
클라우드 가상머신 서비스 플랫폼으로 분석, 컴퓨팅, 데이터베이스, 모바일, 저장소, 웹 등의 IT 인프라 서비스를 제공한다. ‘HDInsight 하둡 클러스터 서비스’를 웹 베이스의 형태로 제공.
- 아마존 AWS
4번과 같은 맥락으로 통합된 클라우드 서비스 플랫폼으로 빅데이터 처리를 위한 하둡 맵리듀스 프레임워크를 클라우드 서비스 형태로 제공
결함 허용의 특징
- Multiple Region
- Load Balancing
- Active/Standby
- Data Mirroring
- Data Replication
cf) 클라우드 환경과 반대로 자체서버에 스트웨어를 올려서 사용하는 것은 On-premise라고 한다.
Leave a comment