dataframe 데이터 살펴보기 (6:46)
Dataframe
- 2차원 표현
- Excel spreadsheet
- 인덱스가 row, column으로 구성됨
- Data Analysis, Machine Learning에서 data 변형을 위하 가장 많이 사용함
head, tail 함수
import pandas as pd
train_data = pd.read_csv("./train.csv")
train_data.head(n=3)
train_data.tail()
dataframe 파악하기
- shape 속성(row, column)
- describe 함수 - 숫자형 데이터의 통계치 계산
- info 함수 - 데이터 타입, 각 아이템의 개수 등 출력
train_data.describe()
train_data.info() // data type 표현
구조 이해하기 (3:36))
인덱스(index)
- 각 아이템을 특정할 수 있는 고유의 값 저장 (중복 불가)
- 복잡한 데이터 => 멀티 인덱스로 표현 가능
train_data.index
// RangeIndex(start=0, stop=891, step=1)
컬럼( column)
train_data.columns
==> dataframe은 index와 column으로 이루어져있다.
데이터 생성하기 (5:25)
- 다른 데이터 소스(database, csv 등)을 통해 dataframe 생성
- dummy 데이터 생성하는 방법 확인
dictionary롤 부터 생성하기 : dict의 key -> column
import pandas ad pd
// index => 행
// dict 의 key는 column
data = {'a':100, 'b':200, 'c':300 }
pd.Dataframe(data, index=['x','y','z'])
// Series로부터 dataframe 생성
a = pd.Series([100,200,300], ['a','b','c'])
b = pd.Series([101,201,301], ['a','b','c'])
c = pd.Series([110,210,310], ['a','b','c'])
pd.Dataframe([a,b,c], index=[100,101,102]) // index는 dataframe의 행
csv데이터로 dataframe 데이터 생성하기 (7:35)
csv데이터로부터 Dataframe 생성
- dataframe을 구성하는 가장 일반적인 방법
학습 후