빅데이터를 지탱하는 기술 키워드 정리

오몰내알 2022. 3. 18. 18:02

Chapter 1. 빅데이터 기초 지식

Hadoop: 대량의 데이터를 처리하기 위한 시스템

NoSQL: 분산 처리에 뛰어난 데이터베이스

=> 'NoSQL에 저장하고, Hadoop으로 분산 처리'

데이터 파이프라인

데이터 웨어하우스: 대량의 데이터를 장기 보존하는데 최적화. -> ETL

데이터 마트: DW에서 필요한 데이터만 추출하여 시각화 도구와 조합.

데이터 레이크: DW처럼 가공하여 데이터를 저장하는 것이 아니라 원 데이터를 그대로 저장.

크로스 테이블: 행 방향과 열 방향의 데이터가 교차.

트랜잭션 테이블: DB 형태의 테이블.

피벗 테이블: 소량의 데이터를 크로스 집계.

MPP 데이터베이스: 빠른 데이터 접근을 위해 병렬 처리하는 데이터베이스. 아마존 Redshift와 구글 BigQuery가 있다.

대시보드 도구: 최신의 집계 결과 확인. ex) Kibana

BI 도구: 대화형 데이터 탐색과 같이 차분히 데이터 확인. ex) Tableau

비정규화 테이블: 데이터 마트를 구성할 때 사용하는 테이블 형태로, 팩트 테이블에 모든 칼럼을 포함해두고 쿼리 실행 시에는 테이블 결합을 하지 않아 빠른 속도를 낼 수 있다.

데이터 구조화 파이프라인

Hadoop

Hive: MapReduce 기반의 쿼리 언어로 데이터 집계(대용량 배치 처리)

Presto: 대화형 쿼리 실행(Hive로 완성한 구조화 데이터 집계)

Spark: MapReduce를 대체할 고속의 인메모리 분산 데이터 처리

데이터 마트 구축

팩트 테이블에서 필요한 데이터 추출 -> 디멘전 테이블과 결합하여 저장할 컬럼 선택 -> 그룹화하여 측정값 집계 -> 만들어진 비정규화 테이블을 데이터 마트에 축적