Computer/Programming

Python + Selenium을 통해 자바스크립트로 렌더링 된 페이지 파싱하기

kentakang 2018. 6. 21. 18:09
반응형

요즘은 웹 환경에서 자바스크립트로 렌더링 하는 페이지가 많습니다.

그런 페이지들은 아래 사진과 같이 소스 보기를 통해서는 HTML 소스 확인이 불가능하고

개발자 도구에서만 확인이 가능합니다.

이런 페이지의 경우 자바스크립트를 실행시킬 수 있는 WebDriver가 필요합니다.

게시글과 같이 이미 Selenium을 통해서 WebDriver를 사용하고 계시다면, 아래 코드를 통해 렌더링 된 페이지의 HTML을 가져오실 수 있습니다.

from selenium import webdriver
from bs4 import BeautifulSoup

driver = webdriver.Chrome('./chromedriver.exe')
html = driver.execute_script('return document.body.innerHTML')
soup = BeautifulSoup(html, 'html.parser')


반응형
1 2 3 4 5