지난 포스팅 - 알라딘 중고책 프로젝트 (5) - superset
프로젝트 코드 - https://github.com/kgw7401/used_book_project
이제 프로젝트의 최종 결과물을 살펴보고, 지금까지 달려온 과정을 회고하면서 부족한 부분은 무엇인지, 다음 프로젝트에서 보완할 수 있는 점은 무엇이 있는지 살펴보려고 한다.
프로젝트 결과물
프로젝트의 최종 결과물이 어떤지 한 번 보도록 하자. 어떤 방식으로 프로젝트 결과물을 게시할까 고민하다가 전체적인 모습을 보여주는 것이 좋겠다는 생각에 시연 영상을 보여주는 방식을 선택했다.
대시보드는 크게 아래와 같은 차트를 가지고 있다. (차트 이름, 차트 종류)
- 전체 중고책 수(big_number_total)
- 필터(filter_box)
- 카테고리별 중고책 수 Treemap(treemap)
- 카테고리별 중고책 개수(대분류)(table)
- 카테고리별 중고책 개수(소분류)(table)
- 중고로 가장 많이 팔리는 작가(table)
- 출판년도별 중고책 매물(1999~2021)(line)
회고
잘한 점
- 첫 데이터 엔지니어 프로젝트였는데, 나의 흥미와 적절한 난이도로 첫 단추를 잘 꽨 것 같다.
- 내가 했던 시행착오들을 나름 잘 작성하여 다른 사람들에게 도움이 될 수 있도록 포스팅하였다.
아쉬운 점
- 조금 더 어려운 방법으로 진행해보았었으면 하는 아쉬움이 있다. 최종 결과물을 보는 것에만 치중하여 새로운 기술을 사용해볼 생각은 하지 않았던 것 같다.
- 부족한 서버 스펙으로 다양한 시도를 하지 못했다.
- 처음 프로젝트를 구상할 때 구체적으로 무엇을 할 지 결정하지 않아 최종 결과물에 조금 아쉬움이 있다.
- 원래 계획은 신작이 중고책 시장에 얼마만에 나오는지, 어느 정도의 기간이 지나면 가격이 떨어지는지와 같은 조금 더 유용한 분석을 하고 싶었으나 데이터의 한계로 해당 분석은 하지 못했다.
앞으로
첫 데이터 엔지니어링 프로젝트가 끝이 났다. 첫번째 프로젝트이니 만큼 궁금했던 주제를 쉽고 간단한 방식으로 구성했다. 분석하고 싶었던 부분을 나름 잘 시각화하긴 했지만 데이터 엔지니어가 잘 다루어야 하는 여러 기술들(Airflow, Spark...)을 전혀 다루지 못한 부분이 많이 아쉬웠다.
이번 프로젝트에서는 "주제"에 집중을 하였다면 다음 프로젝트에서는 다루고 싶은 "기술"에 집중하여 조금 더 기술적으로 성숙할 수 있는 계기를 만들어보도록 하자!!
반응형
'프로젝트 > 알라딘 중고책 프로젝트' 카테고리의 다른 글
알라딘 중고책 프로젝트 (5) - superset (0) | 2022.04.23 |
---|---|
알라딘 중고책 프로젝트 (4) - RDS, EC2 구축하기 (0) | 2022.04.19 |
알라딘 중고책 프로젝트 (3) - 데이터 적재하기 | 코드 완성 (0) | 2022.04.13 |
알라딘 중고책 프로젝트 (2) - 데이터 추출하기 (0) | 2022.04.08 |
알라딘 중고책 프로젝트 (1) - 알라딘 API 살펴보기 (3) | 2022.04.07 |