Chapter 1. 빅데이터 기초 지식
Hadoop: 대량의 데이터를 처리하기 위한 시스템
NoSQL: 분산 처리에 뛰어난 데이터베이스
=> 'NoSQL에 저장하고, Hadoop으로 분산 처리'
데이터 파이프라인
데이터 웨어하우스: 대량의 데이터를 장기 보존하는데 최적화. -> ETL
데이터 마트: DW에서 필요한 데이터만 추출하여 시각화 도구와 조합.
데이터 레이크: DW처럼 가공하여 데이터를 저장하는 것이 아니라 원 데이터를 그대로 저장.
Chapter2. 빅데이터의 탐색
크로스 테이블: 행 방향과 열 방향의 데이터가 교차.
트랜잭션 테이블: DB 형태의 테이블.
피벗 테이블: 소량의 데이터를 크로스 집계.
MPP 데이터베이스: 빠른 데이터 접근을 위해 병렬 처리하는 데이터베이스. 아마존 Redshift와 구글 BigQuery가 있다.
대시보드 도구: 최신의 집계 결과 확인. ex) Kibana
BI 도구: 대화형 데이터 탐색과 같이 차분히 데이터 확인. ex) Tableau
비정규화 테이블: 데이터 마트를 구성할 때 사용하는 테이블 형태로, 팩트 테이블에 모든 칼럼을 포함해두고 쿼리 실행 시에는 테이블 결합을 하지 않아 빠른 속도를 낼 수 있다.
Chapter3. 빅데이터의 분산 처리
데이터 구조화 파이프라인
Hadoop
- HDFS: 분산 파일 시스템
- YARN: 리소스 관리자
- MapReduce: 분산 데이터 처리
Hive: MapReduce 기반의 쿼리 언어로 데이터 집계(대용량 배치 처리)
Presto: 대화형 쿼리 실행(Hive로 완성한 구조화 데이터 집계)
Spark: MapReduce를 대체할 고속의 인메모리 분산 데이터 처리
데이터 마트 구축
팩트 테이블에서 필요한 데이터 추출 -> 디멘전 테이블과 결합하여 저장할 컬럼 선택 -> 그룹화하여 측정값 집계 -> 만들어진 비정규화 테이블을 데이터 마트에 축적
'데이터 엔지니어링 > 데이터 엔지니어링 기초' 카테고리의 다른 글
빅쿼리 데이터 로딩 포맷 비교 CSV | JSON | Parquet | AVRO (0) | 2022.06.08 |
---|---|
dbt 꼭 써야할까? dbt 정의/사용이유/필요성 (0) | 2022.05.17 |
데이터 웨어하우스란? (0) | 2022.03.17 |
빅데이터를 지탱하는 기술 Ch6 - 빅데이터 분석 기반 구축 (0) | 2022.01.05 |
빅데이터를 지탱하는 기술 Ch5 - 빅데이터의 파이프라인 (0) | 2022.01.03 |