본문 바로가기

DS/fast campus daily report

7.19 (머신러닝과 데이터분석) oversampling 기법, SMOTE변형 기법들

oversampling 기법(8:55)

class imbalanced problem 해결위한 방법

Resampling mehtod

  • over sampling : 소수의 데이터를 부풀리는 방법
  • under sampling :  다수의 데이터를 줄이는 방법
  • hybrid resampling : over & under 결합해서 사용 

cost-sensitive learning

SMOTE변형 기법들(10:36)

SMOTE

두 point를 연결하는 segment상에 존재하는 data를 random sampling

BLSMOTE (borderline SMOTE)

  • 정확하게 borderline을 찾는다는 보장이 있어야 한다.

DBSMOTE(DBSCAN SMOTE)

  • Minority data에 대하여 DBSCAN cluster
  • 경로가 뚜렷하게 보인다?

데이터마다 좋은 알고리즘(잘 맞는) 이 다르다.