본문 바로가기

TIL/Python&Data4

[Python 크롤링 ] 4. selenium 사용 find_element 요소 접근 페이지의 특정 element에 접근하는 방식 driver.find_element_by_xpath('//*[@id="main-area"]/div[7]/a[2]') #xpath 로 접근 driver.find_element_by_class_name('some_class_name')#class 속성으로 접근 driver.find_element_by_id('html_id')#id 속성으로 접근 driver.find_element_by_link_text('회원가입')#링크가 달려 있는 텍스트로 접근 driver.find_element_by_css_selector('#css>div.selector')#css 셀렉터로 접근 driver.find_element_by_name('html_name')#name 속성으로 접근.. 2022. 10. 31.
[Python 크롤링] 3. selenium, bs4 크롤링 개발환경 설정 및 설치 웹 크롤링을 하기 전에 개발환경을 설정해줘야 한다. 이전에 다뤘던 bs4 부터 차근차근 개발환경을 설정해보자. 설치하고자 하는 bs4에 대한 조금 더 자세한 내용은 아래의 글을 참고하도록 하자. [Python] 크롤링 - 2. Beautiful Soup, bs4 사용법 [Python] 크롤링 - 2. Beautiful Soup, bs4 사용법, find( ), find_all(), select() Beautiful Soup란? 파이썬으로 웹사이트를 크롤링한 후에, HTML 태그로 부터 원하는 데이터를 가져오기 위해 데이터를 추출하고 파싱할 때 간편하게 해주는 오픈소스 라이브러리이다. Beautiful Soup로 parkjh7764.tistory.com 웹크롤링을 위한 개발환경 준비 Beautiful So.. 2022. 10. 30.
[Python 크롤링] 2. Beautiful Soup, bs4 사용법, find( ), find_all(), select() Beautiful Soup란? 파이썬으로 웹사이트를 크롤링한 후에, HTML 태그로 부터 원하는 데이터를 가져오기 위해 데이터를 추출하고 파싱할 때 간편하게 해주는 오픈소스 라이브러리이다. Beautiful Soup로 원하는 데이터를 가져온다는 것은 원하는 부분의 웹의 태그를 가져온다는 말과 같다. Beautiful Soup 설치하기 cmd 창을 열고 아래의 명령어를 입력한 후 엔터를 친다. pip install bs4 Beautiful Soup를 사용해 웹의 태그를 가져올 때는 함수를 사용하는데, find(), find_all(), select() 함수가 있다. 한번 알아보도록 하자. find( ) 함수 조건을 만족하는 태그를 하나만 가져오는 함수이다. 이 함수를 사용하면 HTML 코드 안에 원하는 태.. 2022. 10. 30.
[Python 크롤링] 1. requests, re 정규식 표현 pip로 requests 모듈 설치 pip install requests requests import 및 응답코드 출력 import requests res = requests.get("http://naver.com") print("응답코드 : ", res.status_code) requests 모듈 import 원하는 url 정보 get으로 넘겨줌. res 변수에 가져온 정보 담아줌. 실제로 잘 받아왔는지, 접속 권한, 서버 문제 등을 확인 하기 위해 응답 코드를 찍을 수 있는데 =>이는 .status_code로 알아본다. 응답코드 : 200이면 정상적으로 받아온 것. 응답코드에 따라 에러 출력 res.raise_for_status() 정상적으로 가져오면 문제가 없고, 정상적으로 스크래핑을 하지 못 하면.. 2022. 10. 23.