HDFS
HDFS 개요
- 큰 파일을 다루기 위한 도구
- 블록으로 분할하여 저장 - 128MB
- 블록들은 여러 대의 컴퓨터에 저장된다. 또한 각 블록의 복사본을 하나만 저장하는 것이 아니다. → 실패에 대처
HDFS 아키텍처
- 네임노드: 모든 블록이 어디에 있는지 추적
- 편집 로그를 통해 새로운 파일의 추가나 이동 등을 추적
- 데이터 노드: 궁극적으로 클라이언트와 통신
- 클라이언트 노드가 네임노드에 연락하여 어떤 블록이 어떤 데이터 노드에 있는지 물어보고 데이터 노드에서 실제로 블록을 찾는다.
- 클라이언트 노드가 네임 노드에 새 항목 생성을 의뢰하고, 네임 노드의 정보가 클라이언트 노드를 통해 데이터 노드 간데이터를 복제한다. 그리고 성공했다면 성공 사실을 다시 네임노드로 전송한다.
- Read File
- 네임 노드 복구
- 메타데이터를 지속적으로 백업
- 보조 네임노드: 기본 네임 노드에서 편집로그의 복사본을 유지 관리하는 작업을 하는 네임노드 → 네임노드가 또 있다는 게 아니다.
- HDFS 페더레이션: 네임 노드 분산
반응형
'데이터 엔지니어링 > Hadoop' 카테고리의 다른 글
Sec.6 NoSQL & Hadoop (0) | 2022.01.25 |
---|---|
Sec5. Hadoop & RDB (0) | 2022.01.25 |
Sec4. Spark (0) | 2022.01.25 |
Sec3. Pig (0) | 2022.01.25 |
Sec1. 하둡 설치 및 개요 (0) | 2022.01.18 |