오몰내알 2022. 1. 25. 08:34

Hive

  • 전체 클러스터에 저장된 데이터를 표준 SQL을 통해 맵리듀스로 변환하여 사용할 수 있다.
  • HiveQL
    • SQL과 아주 비슷하지만 Hive에 최적화
  • 스키마 온 리드
    • 비구조화 된 데이터를 가져와 스키마 확인을 데이터를 읽는 시점에 한다.
  • 데이터 위치
    • LOAD DATA, Managed
      • 하이브 소유 데이터
    • LOAD DATA LOCAL, External tables
      • 테이블을 사용은 하지만 소유하지는 않음
  • 사용법
    • CLI
    • Ambari
    • JDBC, ODBC
    • 워크플로

MySQL과 하둡 통합

  • Sqoop
    • SQL + Hadoop
    • RDB 데이터를 HDFS, Hive 등으로 임포트 하거나, 반대로 RDB로 익스포트할 수 있다.
    • 증분 임포트가 가능
    • Import
      • sqoop import —connect jdbc:mysql://localhost/movielens —driver com.mysql.jdbc.Dirver —table movies (—hive-import)
    • Export
      • sqoop export —connect jdbc:mysql://localhost/movielens -m 1 —driver com.mysql.jdbc.Driver —table exported_movies —export-dir /apps/hive/warehouse/movies —input-fields-terminated-by ‘\0001’
      • 테이블이 먼저 존재해야 한다.
반응형