하둡(Hadoop) 세부: 빅데이터 처리 (1/2)

Updated:

  • 빅데이터 처리
    • 처리 방식의 종류(배치, 대화형, 실시간)
    • 처리 솔루션

하둡의 디테일한 내용을 다루기 전에 빅데이터 처리에 대한 내용으로 시작해보자.

처리방식의 종류

  1. 배치 처리(Batch Processing)
    • 일괄처리와 같은 말로 주기적으로 작업을 처리하는 방식이다.(일일,주간,월간…)
    • 답변을 얻기까지 일정 시간이 소요됨.
    • 배치 처리의 대표적인 툴(MapReduce, Hive, Pig)

architecture_img ETL(Extract, Transfrom, Load) -> 데이터 분석

  • 배치 스케줄링에는 스크립트와 타이머가 필요함.
    • Unix/Linux: cron, at
    • Windows: Job Scheduler
  1. 대화형 처리(Interactive Processing)
    • 원하는 질의에 대해 수 초내에 답을 얻는 형태.
    • 사용자의 명령을 받아 실행하고 출력.(사용자와 시스템 사이에 인터페이스가 존재한다고 생각하면 된다.)
    • 대화형 처리의 대표적인 툴(Hive의 대화형 모드, Pig의 대화형 모드, Spark의 대화형 모드)
  2. 실시간 처리(Real-time Processing)
    • 1초 ~ 수초 미만의 실시간 처리 및 이벤트성 응답
    • 데이터가 수집되는 즉시 실시간 전처리/계산/패턴 분석
    • In-Memory 기반
    • 결제, 이상거래 탐지등의 분석에 사용
    • 실시간 처리의 대표적인 툴(Storm, Spark Streaming)

처리 솔루션

  1. 아파치 소프트웨어 파운데이션(Apache)

1999년 설립된 비영리 재단으로 하둡과 하둡 에코시스템을 개발했고, 빅데이터와 관련된 오픈소스 프로젝트를 수행하여 그 결과를 무료로 공유. (앞 자료의 하둡 에코시스템 이미지 참고)

  1. 클라우데라(Cloudera)

2008년 설립되었고 하둡과 하둡 에코시스템의 소프트웨어를 클라우데라만의 노하우를 가지고 ‘클라우데라 하둡(CDH) 배포판’ 제공한다. 아파치와의 시스템과 유사하지만 그들만의 일부 솔루션 제공.

  1. 호튼웍스(Hortonworks)

2011년에 설립되어 하둡 플랫폼 설계, 구축, 테스트에 적극 참여. 하둡 개발 및 컨설팅을 진행하고 ‘HDP 배포판’ 제공한다.

  1. 마이크로소프트 애저(Azure)

클라우드 가상머신 서비스 플랫폼으로 분석, 컴퓨팅, 데이터베이스, 모바일, 저장소, 웹 등의 IT 인프라 서비스를 제공한다. ‘HDInsight 하둡 클러스터 서비스’를 웹 베이스의 형태로 제공.

  1. 아마존 AWS

4번과 같은 맥락으로 통합된 클라우드 서비스 플랫폼으로 빅데이터 처리를 위한 하둡 맵리듀스 프레임워크를 클라우드 서비스 형태로 제공

결함 허용의 특징

  • Multiple Region
  • Load Balancing
  • Active/Standby
  • Data Mirroring
  • Data Replication

cf) 클라우드 환경과 반대로 자체서버에 스트웨어를 올려서 사용하는 것은 On-premise라고 한다.


Categories:

Updated:

Leave a comment