Issues [2]
- 크롤링속도가 너무느림 (슬립줄이고 병렬로 크롤링가능?)
- 리뷰 페이지수가 적을때도 있음 (현재는 crawl_restaurant_reviews 여기서 인스턴스로 직접 수정해야함) / 또는 아예 없는경우
- 모든 리뷰를 긁어오는것이 아닌 처음에 보이는 3개의 리뷰만 긁어옴 -> 후기더보기 눌러서 다른 것들도 긁어와야함 (후기 더보기가 없는곳도 존재함)
Problem Solving
- time.sleep 호출을 최소화하고 WebDriverWait를 사용하여 요소가 로드될 때까지 기다림
ThreadPoolExecutor, 여러 페이지를 병렬로 크롤링
30개 식당 크롤링하는대 대략 60초 90초 기존 방식 -> 120초
- get_total_pages(driver), 리뷰가 아예없는 경우와 그렇지않은 경우들로 나누어 크롤링, 크롤링속도이슈로 인한 맥시멈 크롤링 페이지는 5로 설정
- extract_reviews(driver): extract_restaurant_info(driver):, 리뷰 전부 긁어올수 있도록 수정함/ 후기 없는것은 빈 리스트 리턴
- 추가이슈, 페이지 한개에서만 긁어오는걸 해도 소요시간 약 5분소요