CS
[CS / TOPCIT] 빅데이터 시스템
따봉치치
2023. 5. 9. 18:58
728x90
하둡(Hadoop)
대용량의 데이터를 여러 개의 분산 저장소에서 분산 처리하는 방식의 자바기반 프레임워크
1. 하둡 분산형 파일 시스템(HDFS) : 하둡 네트워크에 연결된 기기에 데이터를 저장하는 분산형 파일시스템
- HDFS는 네임노드 서버 한 대와 데이터노드 서버 여러 대로 구성
- 네임노드는 모든 메타데이터 관리하고 클라이언트가 이를 이용하여 HDFS에 저장된 파일에 접근 가능
- 하둡 애플리케이션은 파일을 저장하거나 읽기위해서 HDFS 클라이언트를 사용하고 클라이언트는 API형태로 사용자에게 제공
2. 맵리듀스(Map reduce) : 대용량의 데이터 처리를 위한 분산 프로그래밍 모델, 소프트웨어 프레임워크
- 맵 : 흩어져 있는 데이터를 연관성 있는 데이터들로 분류하는 작업
- 리듀스 : Map에서 출력된 데이터를 중복 데이터를 제거하고 원하는 데이터룰 추출하는 작업
하둡 지원 프로그램
- 스트리밍 데이터 수집
- 정형 데이터 수집
- 분산 데이터 베이스
- 실시간 SQL 질의
- 메타 데이터관리
- 데이터 분석
- 인메모리 처리
- 데이터 마이닝
- 워크 플로우관리
- 분산 코디네이터
- 직렬화
- 리소스 매니저
빅데이터 시스템의 동향
1. 기업별 강점기반 시스템 생태계 형성
2. 빅데이터 서비스 제공영역 차별화
728x90