오몰내알 데엔

책 리뷰

[도서 리뷰] 데이터 엔지니어를 위한 97가지 조언

짧은 감상평 데이터 엔지니어가 중요해진다는 이야기는 많지만 정작 데이터 엔지니어에 대한 이야기를 담은 책이나 정보는 찾기가 어려운 것 같다. 나 또한 이 일을 하면서 동종 업계 사람들의 경험이나 생각들이 항상 궁금했다. 그러한 관점에서 [데이터 엔지니어를 위한 97가지 조언]은 나를 포함한 많은 데이터 엔지니어들이 가지고 있는 고민들을 쉽게 풀어쓴 아주 유익한 책이었다. 특히나 좋았던 점은 데이터 엔지니어도 결국은 개발자이자 직장인이기 때문에 기술적인 내용 뿐만 아니라 좋은 엔지니어가 되는 방법이나 일을 잘하기 위해 지녀야 할 소통방법, 마음가짐 등을 본인이 겪었던 경험을 바탕으로 따뜻하게 조언해주는 듯한 구성이었다. 책의 제목처럼 97가지의 아주 많은 사례들을 소개하는 책에 대한 나의 감상평을 주저리주..

데이터 엔지니어링

그래서 어떤 데이터 엔지니어가 되고 싶은데?

회사에 들어가고 혼자서는 절대 해보지 못할 다양한 경험들을 해보았던 것 같습니다. 열심히 하기 위한 개인의 노력도 당연히 있었지만 아마 어디서도 만나지 못할 훌륭한 개발자 분들을 회사에서 만났기 때문에 더욱 더 다양한 일들을 수행할 수 있지 않았나 하는 생각이 듭니다. 이제 입사한지도 벌써 8개월이 되어 가고 있는데요. 초반에는 일에 치여 바쁘게 사느라 생각해보지 못한 것들이 요새는 자꾸만 생각나는 것 같습니다. 데이터 엔지니어를 꿈꾸고 이를 향해 달려온 지도 꽤나 많은 시간이 흘렀는데, 과연 나는 어떤 데이터 엔지니어가 되고 싶은지, 내 종착지는 어디인지에 대한 고민입니다. 생각해보면 지금까지는 훌륭한 데이터 엔지니어는 무엇이고, 그럼 그 훌륭한 엔지니어가 되기 위해서는 어떤 일들을 해야하는지에 대해 ..

프로젝트/Fake Onlineshop 프로젝트

Fake Onlineshop 프로젝트 (1) - 데이터 생성 및 적재

지난 포스팅 - Fake Onlineshop 프로젝트 (0) - 프로젝트 개요 🛒데이터 생성 데이터 파이프라인을 구축하기 위해서 가장 중요한 것은 데이터이다. 데이터를 구하는 것이 항상 문제였었는데, 이번에는 데이터를 직접 만들어서 사용하려고 한다. 이번 주제는 가상 쇼핑몰이기 때문에 쇼핑몰 데이터에서 가장 핵심이 되는 유저와 주문 데이터를 만들 것이다. 그 중 먼저 유저 데이터를 생성하는 작업을 해보도록 하자! 🙎‍♂️유저 데이터 생성 유저 데이터 생성에는 Faker 라이브러리를 사용하였다. 이 라이브러리는 한국어 정보도 추출할 수 있고, 무엇보다 유저의 간단한 프로필을 뽑을 수 있어서 데이터를 정의하는데 크게 고민할 필요가 없다는 점이 편하다. Faker 안에 simple_profile()을 이용하면..

프로젝트/Fake Onlineshop 프로젝트

Fake Onlineshop 프로젝트 (0) - 프로젝트 개요

🔧현업의 파이프라인 오랜만에 블로그 포스팅을 하는 거 같다. 중고책 분석 프로젝트가 끝난 지 약 이주일 정도 흘렀는데, 그 동안 부스트캠프를 하면서 현타(?)가 와버려서 잠깐 코딩을 멈췄었다. 회복하는데 조금 시간이 걸리긴 했지만 마음을 다잡고 다음 프로젝트를 진행할 계획을 조금 씩 세웠다. 이번에는 어떤 프로젝트를 해볼까하는 고민 끝에 저번 프로젝트에서 느낀 아쉬운 점을 개선해보자는 생각이 들었다. 저번 프로젝트에서 나름 괜찮은 결과물을 내긴 했지만 데이터 엔지니어로서 필요한 기술 스택을 전혀 사용해보지 못해 아쉬움이 컸었다. 따라서 이번 프로젝트에서는 참신한 주제에 종속되지 않고 기술 스택을 제대로 다뤄보기로 하였다. 또한 추가적으로 현업에서의 데이터 파이프라인을 모방하면서 조금은 현업스러운(?) 파..

프로젝트/알라딘 중고책 프로젝트

알라딘 중고책 프로젝트 (5) - superset

저번 포스팅 - 알라딘 중고책 프로젝트 (4) - RDS, EC2 구축하기 서비스를 위한 인프라는 모두 구축했고, 데이터도 적재했으니 이것들을 이용해서 이제 시각화를 해볼 차례이다. 시각화를 위한 도구는 무엇으로 할까 고민하다 오픈소스에 사용법도 간단한 Superset을 최종으로 선택했다. 각설하고 본격적으로 슈퍼셋을 설치하고 실제 시각화하는 과정까지 이야기해 보도록 하겠다. Superset 설치 우선 슈퍼셋을 어디에 설치할지가 고민이었다. 첫번째 후보는 로컬이었는데, 컴퓨터에 쓸 데 없는(?) 프로그램이 설치되는 것을 좋아하지 않아 탈락하였다. 결국 EC2에 설치하기로 하였는데, 선택한 가장 큰 이유는 일회용으로 사용할 수 있다는 것이었다. 사실 이 부분은 도커로 설치하면 똑같이 일회성으로 사용할 수 ..

프로젝트/알라딘 중고책 프로젝트

알라딘 중고책 프로젝트 (3) - 데이터 적재하기 | 코드 완성

저번 포스팅 - 알라딘 중고책 프로젝트 (2) - 데이터 추출하기 중복될 수 있는 데이터를 적재하는 방법 데이터를 추출했으니 이제 추출한 데이터를 DB에 적재해야 한다. 그런데 여기서 주의해야 할 점이 한 가지 있었다! 이 프로젝트에서는 새로 들어온 중고책 데이터를 사용한다. 하지만 얼마의 주기를 가지고 매번 어느정도의 데이터가 생성되는지는 알 수 있는 방법이 없기 때문에 데이터가 중복될 가능성이 있다. 조금 더 쉽게 설명해보도록 하자. 내가 지금 1000개의 데이터를 추출한다고 가정하자. 그러면 DB에는 1000개의 데이터가 적재될 것이다. 시간이 지나고 6시간 뒤 다시 1000개의 데이터를 추출하고 적재해보자. 그러면 DB에는 2000개의 데이터가 존재할까? 정답은 아닐 수 있다이다. 만약 6시간 동..

오몰내알
'데이터 엔지니어' 태그의 글 목록