본문 바로가기

DS/fast campus daily report

7.18 (머신러닝과 데이터분석)class imbalanced problem>imbalanced problem 해결방법 (10:45)

class imbalanced problem이란(14:13)

IR (class imbalanced ratio) = # of majority class / # of minority class

class imbalanced problem 이란?

  • 모델이 소수의 데이터를 무시하는 현상
  • oversampling 기법 통해 minority 데이터를 부풀려서 사용가능

class imbalanced problem 에서 사용하는 모델 성능 지표

  • G-mean, F1 measure
  • 정밀도 : 얼마나 잘 작동했는지 보여주는 지표
  • 재현율 : 
  • 특이도 : 
  • ROC curve : 가로축 1-특이도, 세로축을 재현율로 하여 시각화한 그래표
  • AUC : ROC curve의 면적

class imbalanced problem 해결방법 (10:45)

resampling mehtod

over-sampling (up) : 소수 데이터를 부풀리는 법

cost-sensitive learning 

class의 오류 분석에 대한 cost 의 가종