k-means 1.clustering (6:22)
비지도학습 (unsupervied learning)
- 출력변수 (Y) 없음
- 군집분석 - 유사 데이터들낄 그룹화
- PCA - 독립변수 차원 축소
Clustering?
- 데이터 유사도 측정, 분류, 군집 간에 상이성 규명
- 고객 segmentation을 통한 마케팅 활용 방안 / 군집 별 추가 분석수행
- 해석은 분석자가 수행
=> classification 정확도가 높다. ( x와 y가 다 있을 경우, clustering의 정확도는 낮음)
종류
- k-means clustering : 사용자가 지정한 k개의 군집으로 나눔
- hierarchical clustering : decision tree 같은 계층구조 설정
- DBSCAN : k개 설정 불필요
2.k-means clustering (5:57)
각 군집의 평균좌표 이용해서 중심점 계속 업데이트
절차
- 최초 중심점 random 할당
- 각 군집마다 중심점을 다시 찾아 update 함
- 중심점이 update되기 전까지 반복함
거리측정
- Manhattan distance : 각 축에 대해 수직으로만 이동하여 거리 계산
- Euclidean distance : 점과 점 사이의 짧은 거리
문제점
- 최적의 k를 선택해야 함
- 잘 사용하지 않는 방법 중의 하나임
3.최적의 k
k 값 설정 방법
'DS > fast campus daily report' 카테고리의 다른 글
7.19 (머신러닝과 데이터분석) oversampling 기법, SMOTE변형 기법들 (0) | 2020.07.19 |
---|---|
7.18 (머신러닝과 데이터분석)class imbalanced problem>imbalanced problem 해결방법 (10:45) (0) | 2020.07.19 |
7.14 (데이터엔지니어링) 터미널에서 데이터베이스 연결하기, mysql-데이터베이스 연결하기, mysql 데이터베이스안에서 테이블 생성, 엔터티 관계도란? (0) | 2020.07.14 |
7.13 (딥러닝/인공지능)챕터 소개, 전체 구조 및 학습 과정, 딥러닝 용어- (0) | 2020.07.14 |
7.11 (데이터엔지니어링) 클래스 연습문제 풀이, 정규표현식 연습문제 풀이 (0) | 2020.07.11 |