본문 바로가기
TIL/Python&Data

[Python 크롤링] 3. selenium, bs4 크롤링 개발환경 설정 및 설치

by 왁왁s 2022. 10. 30.

웹 크롤링을 하기 전에 개발환경을 설정해줘야 한다.

이전에 다뤘던 bs4 부터 차근차근 개발환경을 설정해보자.

 

설치하고자 하는 bs4에 대한 조금 더 자세한 내용은 아래의 글을 참고하도록 하자.

 

 [Python] 크롤링 - 2. Beautiful Soup, bs4 사용법

 

[Python] 크롤링 - 2. Beautiful Soup, bs4 사용법, find( ), find_all(), select()

Beautiful Soup란? 파이썬으로 웹사이트를 크롤링한 후에, HTML 태그로 부터 원하는 데이터를 가져오기 위해 데이터를 추출하고 파싱할 때 간편하게 해주는 오픈소스 라이브러리이다. Beautiful Soup로

parkjh7764.tistory.com

 


 

웹크롤링을 위한 개발환경 준비

Beautiful Soup 설치 

HTML 소스코드에서 원하는 태그를 찾기 위한 Beautiful Soup 패키지

 

'명령 프롬프트 (cmd) 창'에서 pip intall bs4 명령어를 입력한다.

pip install bs4

 


셀레니움(selenium) 설치 

사람 대신 웹 페이지를 열고 데이터를 수집하는 selenium 패키지

 

'명령 프롬프트 (cmd) 창'에서 pip install selenium 명령어를 입력한다.

pip install selenium

 


 

selenium 패키지가 사용할 웹 드라이버 설치

웹 데이터를 크롤링할 때 사람 대신 selenium이 웹 드라이버 프로그램을 이용해 웹 페이지를 열고 지정한 태그를 찾아 데이터를 수집한다. 웹 브라우저로 크롬을 사용할 것인데, 사람이 사용하는 크롬 프로그램과 selenium이 사용하는 크롬 프로그램이 다르기 때문에 아래의 링크를 통해 다운로드 받아주어야 한다.

 

https://sites.google.com/a/chromium.org/chromedriver/downloads 

 

Downloads - ChromeDriver - WebDriver for Chrome

WebDriver for Chrome

sites.google.com

 


1) 사이트에 들어간다.

위의 링크로 들어가면 아래와 같은 화면이 나온다. 자신의 크롬 버전에 맞는 크롬드라이버를 다운받으면 된다. 그러나 버전에 따라 제공되는 기능이 다르다. 크롬 버전 확인은 아래를 따라서 확인해보자.

 

 

2) Chrome 버전을 확인한다.

 

Chrome 버전을 확인하기 위해선 Chrome을 들어가서 오른쪽 상단 위에 : 를 클릭한다.

도움말 > Chrome 정보를 클릭한다.

 

 

 

Chrome 정보 안에 있는 버전을 확인한다. 나의 크롬 버전은 '107.0.5304.88' 이다.


 

3) 사이트로 다시 돌아가서 버전에 맞는 ChromeDriver를 설치한다.

(1) 아무런 ChromeDriver 버전을 들어간다. 

 


 

(2) Parent Directory 를 클릭한다.


(3) 자신의 크롬 버전에 맞는 디렉터리를 찾는다.

나는 107.0.5304.88 이지만, 너무 최신버전이라 없기에 가장 최신 디렉터리를 클릭한다.

 


 

(4) OS에 따라 맞는OS용 크롬 드라이버를 눌러서 다운로드 한다.

나는 윈도우를 사용하기에 chromedriver_win32.zip을 클릭해 다운로드 했다.


 

(5) chromedriver.exe 파일을 실행시켜 설치한다.

댓글