본문 바로가기

DS/fast campus daily report

6.11 (머신러닝과 데이터분석 A-Z) dataframe 데이터 살펴보기, 구조 이해하기, 데이터 생성하기, csv데이터로 dataframe 데이터 생성하기

dataframe 데이터 살펴보기 (6:46)

Dataframe

  • 2차원 표현
  • Excel spreadsheet
  • 인덱스가 row, column으로 구성됨
  • Data Analysis, Machine Learning에서 data 변형을 위하 가장 많이 사용함

head, tail 함수

import pandas as pd
train_data = pd.read_csv("./train.csv")

train_data.head(n=3)
train_data.tail()

dataframe 파악하기

  • shape 속성(row, column)
  • describe 함수 - 숫자형 데이터의 통계치 계산
  • info 함수 - 데이터 타입, 각 아이템의 개수 등 출력
train_data.describe()
train_data.info() // data type 표현

구조 이해하기 (3:36))

인덱스(index)

  • 각 아이템을 특정할 수 있는 고유의 값 저장 (중복 불가)
  • 복잡한 데이터 => 멀티 인덱스로 표현 가능
train_data.index
// RangeIndex(start=0, stop=891, step=1)

컬럼( column)

train_data.columns

==> dataframe은 index와 column으로 이루어져있다.

데이터 생성하기 (5:25)

  • 다른 데이터 소스(database, csv 등)을 통해 dataframe 생성
  • dummy 데이터 생성하는 방법 확인

dictionary롤 부터 생성하기 : dict의 key -> column

import pandas ad pd

//  index => 행
// dict 의 key는 column 
data = {'a':100, 'b':200, 'c':300 }
pd.Dataframe(data, index=['x','y','z'])

// Series로부터 dataframe 생성
a = pd.Series([100,200,300], ['a','b','c'])
b = pd.Series([101,201,301], ['a','b','c'])
c = pd.Series([110,210,310], ['a','b','c'])

pd.Dataframe([a,b,c], index=[100,101,102]) // index는 dataframe의 행

csv데이터로 dataframe 데이터 생성하기 (7:35)

csv데이터로부터 Dataframe 생성

  • dataframe을 구성하는 가장 일반적인 방법

학습 후