Hive
- 전체 클러스터에 저장된 데이터를 표준 SQL을 통해 맵리듀스로 변환하여 사용할 수 있다.
- HiveQL
- SQL과 아주 비슷하지만 Hive에 최적화
- 스키마 온 리드
- 비구조화 된 데이터를 가져와 스키마 확인을 데이터를 읽는 시점에 한다.
- 데이터 위치
- LOAD DATA, Managed
- 하이브 소유 데이터
- LOAD DATA LOCAL, External tables
- 테이블을 사용은 하지만 소유하지는 않음
- LOAD DATA, Managed
- 사용법
- CLI
- Ambari
- JDBC, ODBC
- 워크플로
MySQL과 하둡 통합
- Sqoop
- SQL + Hadoop
- RDB 데이터를 HDFS, Hive 등으로 임포트 하거나, 반대로 RDB로 익스포트할 수 있다.
- 증분 임포트가 가능
- Import
- sqoop import —connect jdbc:mysql://localhost/movielens —driver com.mysql.jdbc.Dirver —table movies (—hive-import)
- Export
- sqoop export —connect jdbc:mysql://localhost/movielens -m 1 —driver com.mysql.jdbc.Driver —table exported_movies —export-dir /apps/hive/warehouse/movies —input-fields-terminated-by ‘\0001’
- 테이블이 먼저 존재해야 한다.
반응형
'데이터 엔지니어링 > Hadoop' 카테고리의 다른 글
Sec7. 대화형 쿼리 (0) | 2022.01.25 |
---|---|
Sec.6 NoSQL & Hadoop (0) | 2022.01.25 |
Sec4. Spark (0) | 2022.01.25 |
Sec3. Pig (0) | 2022.01.25 |
Sec2. HDFS & MapReduce (0) | 2022.01.25 |