본문 바로가기

DS/fast campus daily report

7.15 (머신러닝과 데이터분석) k-means 1.clustering, 2.k-means clustering, 3.최적의 k

k-means 1.clustering (6:22) 

비지도학습 (unsupervied learning)

  • 출력변수 (Y) 없음
  • 군집분석 - 유사 데이터들낄 그룹화
  • PCA - 독립변수 차원 축소

Clustering?

  • 데이터 유사도 측정, 분류, 군집 간에 상이성 규명
  • 고객 segmentation을 통한 마케팅 활용 방안 / 군집 별 추가 분석수행 
  • 해석은 분석자가 수행

    => classification 정확도가 높다. ( x와 y가 다 있을 경우, clustering의 정확도는 낮음) 

종류

  • k-means clustering : 사용자가 지정한 k개의 군집으로 나눔
  • hierarchical clustering : decision tree 같은 계층구조 설정
  • DBSCAN : k개 설정 불필요

 

2.k-means clustering (5:57)

각 군집의 평균좌표 이용해서 중심점 계속 업데이트

절차

  1. 최초 중심점 random 할당
  2. 각 군집마다 중심점을 다시 찾아 update 함
  3. 중심점이 update되기 전까지 반복함

거리측정

  • Manhattan distance : 각 축에 대해 수직으로만 이동하여 거리 계산
  • Euclidean distance : 점과 점 사이의 짧은 거리

문제점 

  • 최적의 k를 선택해야 함
  • 잘 사용하지 않는 방법 중의 하나임

3.최적의 k

k 값 설정 방법

  •