지난 포스팅 - Fake Onlineshop 프로젝트 (0) - 프로젝트 개요 🛒데이터 생성 데이터 파이프라인을 구축하기 위해서 가장 중요한 것은 데이터이다. 데이터를 구하는 것이 항상 문제였었는데, 이번에는 데이터를 직접 만들어서 사용하려고 한다. 이번 주제는 가상 쇼핑몰이기 때문에 쇼핑몰 데이터에서 가장 핵심이 되는 유저와 주문 데이터를 만들 것이다. 그 중 먼저 유저 데이터를 생성하는 작업을 해보도록 하자! 🙎♂️유저 데이터 생성 유저 데이터 생성에는 Faker 라이브러리를 사용하였다. 이 라이브러리는 한국어 정보도 추출할 수 있고, 무엇보다 유저의 간단한 프로필을 뽑을 수 있어서 데이터를 정의하는데 크게 고민할 필요가 없다는 점이 편하다. Faker 안에 simple_profile()을 이용하면..
🔧현업의 파이프라인 오랜만에 블로그 포스팅을 하는 거 같다. 중고책 분석 프로젝트가 끝난 지 약 이주일 정도 흘렀는데, 그 동안 부스트캠프를 하면서 현타(?)가 와버려서 잠깐 코딩을 멈췄었다. 회복하는데 조금 시간이 걸리긴 했지만 마음을 다잡고 다음 프로젝트를 진행할 계획을 조금 씩 세웠다. 이번에는 어떤 프로젝트를 해볼까하는 고민 끝에 저번 프로젝트에서 느낀 아쉬운 점을 개선해보자는 생각이 들었다. 저번 프로젝트에서 나름 괜찮은 결과물을 내긴 했지만 데이터 엔지니어로서 필요한 기술 스택을 전혀 사용해보지 못해 아쉬움이 컸었다. 따라서 이번 프로젝트에서는 참신한 주제에 종속되지 않고 기술 스택을 제대로 다뤄보기로 하였다. 또한 추가적으로 현업에서의 데이터 파이프라인을 모방하면서 조금은 현업스러운(?) 파..
저번 포스팅 - 알라딘 중고책 프로젝트 (4) - RDS, EC2 구축하기 서비스를 위한 인프라는 모두 구축했고, 데이터도 적재했으니 이것들을 이용해서 이제 시각화를 해볼 차례이다. 시각화를 위한 도구는 무엇으로 할까 고민하다 오픈소스에 사용법도 간단한 Superset을 최종으로 선택했다. 각설하고 본격적으로 슈퍼셋을 설치하고 실제 시각화하는 과정까지 이야기해 보도록 하겠다. Superset 설치 우선 슈퍼셋을 어디에 설치할지가 고민이었다. 첫번째 후보는 로컬이었는데, 컴퓨터에 쓸 데 없는(?) 프로그램이 설치되는 것을 좋아하지 않아 탈락하였다. 결국 EC2에 설치하기로 하였는데, 선택한 가장 큰 이유는 일회용으로 사용할 수 있다는 것이었다. 사실 이 부분은 도커로 설치하면 똑같이 일회성으로 사용할 수 ..
저번 포스팅 - 알라딘 중고책 프로젝트 (2) - 데이터 추출하기 중복될 수 있는 데이터를 적재하는 방법 데이터를 추출했으니 이제 추출한 데이터를 DB에 적재해야 한다. 그런데 여기서 주의해야 할 점이 한 가지 있었다! 이 프로젝트에서는 새로 들어온 중고책 데이터를 사용한다. 하지만 얼마의 주기를 가지고 매번 어느정도의 데이터가 생성되는지는 알 수 있는 방법이 없기 때문에 데이터가 중복될 가능성이 있다. 조금 더 쉽게 설명해보도록 하자. 내가 지금 1000개의 데이터를 추출한다고 가정하자. 그러면 DB에는 1000개의 데이터가 적재될 것이다. 시간이 지나고 6시간 뒤 다시 1000개의 데이터를 추출하고 적재해보자. 그러면 DB에는 2000개의 데이터가 존재할까? 정답은 아닐 수 있다이다. 만약 6시간 동..