정규표현식을 이용하여 원하는 값 추출하기(5:59)
정규표현식 객체 re를 이용해서 데이터 추출하기
# 정규표현식
import re
soup.find_all(re.compile('h\d')) # h tag 뒤에 숫자로 끝나는 문자열 추출
soup.find_all('img', attrs={'src': re.compile('.+\.jpg') })
soup.find_all('h3', class_= re.compile('.+view$') ) # class가 view로 끝나는 모든 tag
사이트에 로그인하여 데이터 크롤링하기(16:12)
- 다음 뉴스 댓글 개수 크롤링
- 로그인 하여 크롤링하기
로그인하여 데이터 크롤링하기
- 예) 쇼핑몰에서 주문한 아이템 목록, 마일리지 조회 등
- 로그인 자동화하고 로그인에 사용한 세션 유지
- 순서
1. endpoint 찾기 (개발자도구 network)
2. id/pw form 찾기
3. session 객체 생성 login 진행
4. session 객체로 원하는 페이지 이동 크롤
학습 후