본문 바로가기

DS/fast campus daily report

6.20 (머신러닝과 데이터분석 A-Z) 정규표현식을 이용하여 원하는 값 추출하기, 사이트에 로그인하여 데이터 크롤링하기

정규표현식을 이용하여 원하는 값 추출하기(5:59)

정규표현식 객체 re를 이용해서 데이터 추출하기

# 정규표현식

import re
soup.find_all(re.compile('h\d')) # h tag 뒤에 숫자로 끝나는 문자열 추출
soup.find_all('img', attrs={'src': re.compile('.+\.jpg') })
soup.find_all('h3', class_= re.compile('.+view$') ) # class가 view로 끝나는 모든 tag

사이트에 로그인하여 데이터 크롤링하기(16:12)

  • 다음 뉴스 댓글 개수 크롤링
  • 로그인 하여 크롤링하기

로그인하여 데이터 크롤링하기

  • 예) 쇼핑몰에서 주문한 아이템 목록, 마일리지 조회 등
  • 로그인 자동화하고 로그인에 사용한 세션 유지
  • 순서
    1. endpoint 찾기 (개발자도구 network)
    2. id/pw form 찾기
    3. session 객체 생성 login 진행
    4. session 객체로 원하는 페이지 이동 크롤

학습 후