CS

[CS / TOPCIT] 빅데이터 시스템

따봉치치 2023. 5. 9. 18:58
728x90

하둡(Hadoop)

대용량의 데이터를 여러 개의 분산 저장소에서 분산 처리하는 방식의 자바기반 프레임워크

 

1. 하둡 분산형 파일 시스템(HDFS) : 하둡 네트워크에 연결된 기기에 데이터를 저장하는 분산형 파일시스템

하둡 분산파일 시스템의 아키텍처

  • HDFS는 네임노드 서버 한 대와 데이터노드 서버 여러 대로 구성
  • 네임노드는 모든 메타데이터 관리하고 클라이언트가 이를 이용하여 HDFS에 저장된 파일에 접근 가능
  • 하둡 애플리케이션은 파일을 저장하거나 읽기위해서 HDFS 클라이언트를 사용하고 클라이언트는 API형태로 사용자에게 제공

2. 맵리듀스(Map reduce) : 대용량의 데이터 처리를 위한 분산 프로그래밍 모델, 소프트웨어 프레임워크

맵리듀스를 통해 문자열 단어에 포함된 단어의 빈도수를 출력해주는 과정

  • 맵 : 흩어져 있는 데이터를 연관성 있는 데이터들로 분류하는 작업
  • 리듀스 : Map에서 출력된 데이터를 중복 데이터를 제거하고 원하는 데이터룰 추출하는 작업

하둡 지원 프로그램

  • 스트리밍 데이터 수집
  • 정형 데이터 수집
  • 분산 데이터 베이스
  • 실시간 SQL 질의
  • 메타 데이터관리
  • 데이터 분석
  • 인메모리 처리
  • 데이터 마이닝
  • 워크 플로우관리
  • 분산 코디네이터
  • 직렬화
  • 리소스 매니저

빅데이터 시스템의 동향

1. 기업별 강점기반 시스템 생태계 형성

2. 빅데이터 서비스 제공영역 차별화

 

 

728x90