본문 바로가기

전체 글

(42)
6.22 (머신러닝과 데이터분석 A-Z) 다중회귀분석에 대한 개념, 다중선형회귀분석의 회귀계수 다중선형회귀분석에 대한 개념(10:02) 실생활에서 단순회귀분석 (변수 1개) 을 하는 경우는 드물다. 회귀분석 개념, 회귀계수 이해하기 단순선형회귀분석 개념과 거의 같다. 단순 => 다중 일 때, 생기는 문제점 확인 후 해결 회귀계수 추정 SSE를 최소화하는 방향으로 접근 SSE는 각각의 변수에 대해 편미분해서 값 구함 SSE는 행렬로 추정. (개념만 알고 있으면 됨) 다중선형회귀분석의 회귀계수(10:18) 학습 후
6.20 (머신러닝과 데이터분석 A-Z) 정규표현식을 이용하여 원하는 값 추출하기, 사이트에 로그인하여 데이터 크롤링하기 정규표현식을 이용하여 원하는 값 추출하기(5:59) 정규표현식 객체 re를 이용해서 데이터 추출하기 # 정규표현식 import re soup.find_all(re.compile('h\d')) # h tag 뒤에 숫자로 끝나는 문자열 추출 soup.find_all('img', attrs={'src': re.compile('.+\.jpg') }) soup.find_all('h3', class_= re.compile('.+view$') ) # class가 view로 끝나는 모든 tag 사이트에 로그인하여 데이터 크롤링하기(16:12) 다음 뉴스 댓글 개수 크롤링 로그인 하여 크롤링하기 로그인하여 데이터 크롤링하기 예) 쇼핑몰에서 주문한 아이템 목록, 마일리지 조회 등 로그인 자동화하고 로그인에 사용한 세션 유..
6.17 (머신러닝과 데이터분석 A-Z) http method 이해하기, html 엘레멘트 이해하기, requests 모듈 사용하기 http method 이해하기(6:27) http (hyper text transfer protocol) 통신규약 GET, POST 방식 등 크롤링 관점에서 GET방식 주로 사용 html 엘레멘트 이해하기(6:15) html (hyper text markup language) : tag를 사용하는 언어 html tag : 브라우저에 어떻게 렌더링이 되는지 알려주는 역할 크롤링시 필요한 정보는 tag 사이의 값 (일반적으로) 값 requests 모듈 사용하기(13:59) 사용이 간단함 GET import requests url = 'https://news.v.daum.net/v/20200617071844353' resp = requests.get(url) resp.text ''' result '\n\n \..
6.16 (머신러닝과 데이터분석 A-Z) merge join 함수로 데이터 프레임 병합하기, 개발자도구 이용하여 웹 페이지 분석하기 merge join 함수로 데이터 프레임 병합하기(13:13) 특정 컬럼 기준 병합 dataframe 합치기 sql join 과 유사 // join 방식 : how 파라미터 통해서 명시 // inner : 기본값, 일치하는 값이 있는 경우 // left : 왼쪽 존재하는 모든 데이터로.. // right : 오른쪽 존재하는 모든 데이터로.. // outer : left + right // on : join 대상이 되는 column 명시 pd.merge(customer, orders, on='customer_id' how='inner') // customer와 orders df의 customer_id가 같은 데이터끼리 merge pd.merge(customer, orders, on='customer_id'..
6.13 (머신러닝과 데이터분석 A-Z) column간 상관관계 계산하기, nan 데이터 처리, 숫자/범주형 데이터 이해, 수자 데이터의 범주형 데이터화 column간 상관관계 계산하기(3:23) 두 변수간의 흐름이 얼마나 관계가 있는지 알아보는 것 (-1
6.12 (머신러닝과 데이터분석 A-Z) Dataframe 원하는 column만 선택하기, Dataframe 원하는 row(데이터)만 선택하기, DataFrame boolean selection으로 데이터 선택하기, DataFrame에 column 추가 삭제하기 Dataframe 원하는 column만 선택하기 (4:32) []를 이용해서 column 추출, [] 안의 parameter는 column의 이름. 없으면 exception 발생 컬럼 인덱스 경우, 인덱스 리스트 사용가능 , train_data[['Survived', 'Age', 'something..']] train_data['Suvived'] (return type이 Series) vs train_data[['Survived']] (return type이 dataframe) Dataframe 원하는 row(데이터)만 선택하기(8:08) dataframe slicing []가 column 선택에 사용, but, slicing은 row level 지원됨 row 선택하기 loc, iloc으로 row 선택가..
6.11 (머신러닝과 데이터분석 A-Z) dataframe 데이터 살펴보기, 구조 이해하기, 데이터 생성하기, csv데이터로 dataframe 데이터 생성하기 dataframe 데이터 살펴보기 (6:46) Dataframe 2차원 표현 Excel spreadsheet 인덱스가 row, column으로 구성됨 Data Analysis, Machine Learning에서 data 변형을 위하 가장 많이 사용함 head, tail 함수 import pandas as pd train_data = pd.read_csv("./train.csv") train_data.head(n=3) train_data.tail() dataframe 파악하기 shape 속성(row, column) describe 함수 - 숫자형 데이터의 통계치 계산 info 함수 - 데이터 타입, 각 아이템의 개수 등 출력 train_data.describe() train_data.info() // da..
6.10 (머신러닝과 데이터분석 A-Z) series 데이터 심플 분석, series 데이터 연산하기, series 데이터 boolean selection으로 데이터 선택하기, series 데이터 변경 슬라이싱 series 데이터 심플 분석(9:36), series 데이터 연산하기(5:42) 1. index 기준으로 연산 s1 + s2 ==> 같은 key를 가지고 있는 index의 value끼리 연산 2. s1 **2 ==> s1의 모든 원소의 value를 제곱 3. s1 ** s2 ==> s1의 각 원소의 value를 s2 의 원소의 value 승 4. 연산이 불가능할 경우, NaN 으로 출력됨 ==> Series와 dataframe은 동일하게 연산된다 series 데이터 boolean selection으로 데이터 선택하기(6:53) boolean selection : True 항목만 선택해서 활용함 import numpy as np import pandas as pd // 값 비교 s = pd.Series(..