오몰내알 데엔

프로젝트/산타 백준 프로젝트

산타 백준 프로젝트 (2) - Airflow를 이용한 분산 웹스크래핑 | 빅쿼리 구축

지난 포스팅 - 산타 백준 프로젝트 (1) - 데이터 정의와 스크래핑 저번 시간에는 어떤 데이터를 사용할 것인지 어떤 방식으로 스크래핑을 할 것인지에 대해 이야기해보았다. 이번 시간부터는 본격적으로 Airflow를 이용하여 분산 크롤링 작업을 해볼 것이다. Airflow 설치부터 시작해서 기본적인 설정과 DAG 작성법까지 종합적으로 정리할 것이다. 그러면 Airflow 설치와 환경 설정부터 시작해보자! 🔧Airflow 설치와 설정 아키텍처를 보면 알 수 있다시피 나는 마스터 노드를 따로 두고 부스트캠프 측에서 제공해주는 서버들을 워커 노드로 두고 있다. 따라서 먼저 GCP를 이용하여 마스터 노드를 구성했던 과정을 살펴보려고 한다. 그런데 이 부분도 사실 GCP에 Airlfow를 구성하는 과정이 잘 나와있..

프로젝트/산타 백준 프로젝트

산타 백준 프로젝트 (1) - 데이터 정의와 스크래핑

지난 포스팅 - 산타 백준 프로젝트 (0) - 프로젝트 개요 📌데이터 정의 본격적으로 크롤링을 하기에 앞서 어떤 데이터가 필요한지를 먼저 정의하는 것이 중요하다. 물론 요새는 데이터 레이크라는 개념이 있어서 우선 모든 데이터를 스토리지에 저장하고 나중에 변환하는 방식을 사용하고는 있다고 한다. 하지만 우리 프로젝트는 데이터 종류가 그렇게 많지도 않고, 사용 데이터가 크게 바뀌지도 않기 때문에 미리 정의하는 것이 좋겠다고 생각했다. 그 전에 프로젝트에서 사용할 데이터 소스에 대해 한 번 설명하고 넘어가는 것이 좋을 거 같다😀 우리는 총 2개의 데이터 소스에서 데이터를 가져오기로 하였다. 백준(BOJ)과 Solved.ac API이다. 백준은 프로그래머라면 모두가 아는 사이트라 설명할 필요가 없을 거 같고, ..

프로젝트/산타 백준 프로젝트

산타 백준 프로젝트 (0) - 프로젝트 개요

📄코딩 문제 추천 서비스 산타백준 부스트캠프에서 마지막 최종 프로젝트를 진행하였다. 최종 프로젝트 주제는 "산타 백준"이다. 산타 백준이라는 이름에서 어느정도 짐작할 수 있겠지만, 산타 토익 + 백준의 합성어이다. 산타 토익처럼 백준의 문제를 추천해주겠다는 취지로 작명을 하였다. 주제에 대해 조금 더 자세히 설명하자면 산타 백준은 코딩 테스트를 준비하는 사람을 위해 실시간으로 백준 문제를 추천해주는 웹 서비스이다. 개발자 열풍이 불면서 코딩 테스트 통과에 대한 수요 또한 증가하였는데, 우리 서비스는 사용자의 수준에 맞춰서 백준 문제를 추천해준다. 원래는 서비스 전체 아키텍처 그림을 공개하고 시작하는데 아무래도 다른 분들과 같이한 팀 프로젝트이니만큼 해당 아키텍처에 대해서는 블로그에서 공개하지는 않고, 나..

오몰내알
'프로젝트/산타 백준 프로젝트' 카테고리의 글 목록