본문 바로가기

전체 글

(42)
7.29 (딥러닝 인공지능) tensorflow 2.0 예제 dataset 소개(MNIST) 및 불러오기 tensorflow 2.0 예제 dataset 소개(MNIST) 및 불러오기 (19:12) # tensorflow data loading import numpy as np import matplotlib.pyplot as plt import tensorflow as tf %matplotlib inline from tensorflow.keras import datasets mnist = datasets.mnist (train_x, train_y), (test_x, test_y) = mnist.load_data() # 데이터 들여다보기 train_x.shape # >> (60000, 28, 28) # 데이터 하나만 뽑기 image = train_x[0] image.shape # >> (28,28) # 시각화..
7.25 (딥러닝 인공지능) numpy 기초 - 1 numpy 기초 - 1 () import numpy as np arr = np.array(5) arr.shape print( arr.ndim ) #차원의 갯수 # 0으로 채워진 numpy array import numpy as np zeros = np.zeros([3,3]) zeros zeros * 5 # 연속 배열 array 생성 np.arange(5) # 0 ~ 4 np.arange(4,9) # 4,5,6,7,8 np.arange(9).reshape(3,3) # arange를 이용해서 1차원 data 생성후 reshape 한다 # index nums = [1,2,3,4,5] nums[2:] # numpy indexing arr[1,2] # 1열 2행의 data get # numpy slicing ar..
7.24 (딥러닝 인공지능) anaconda 활용 및 단축키, tensor 이해하기 anaconda 활용 및 단축키(8:05) jupyter notebook shift + enter : 실행하고 다음 셀로 넘어감 alt + enter : 실행하고 다음 셀을 생성하고 넘어감 ctrl + enter : 실행하고 그 자리에서 멈춤 double d : 해당하는 셀 삭제 shift + ctrl + - : 셀이 나누어짐 esc ( command mode ) + a (위에 셀 생성) / b (아래에 셀 생성) menu - help - keyboard shortcut 정보 확인 가능 esc (command mode) + m : markdown mode 전환 tensor 이해하기(14:05) scalar, vector, matrix, tensor deep learning 시, numpy 활용 빈도 높..
7.19 (머신러닝과 데이터분석) oversampling 기법, SMOTE변형 기법들 oversampling 기법(8:55) class imbalanced problem 해결위한 방법 Resampling mehtod over sampling : 소수의 데이터를 부풀리는 방법 under sampling : 다수의 데이터를 줄이는 방법 hybrid resampling : over & under 결합해서 사용 cost-sensitive learning SMOTE변형 기법들(10:36) SMOTE 두 point를 연결하는 segment상에 존재하는 data를 random sampling BLSMOTE (borderline SMOTE) 정확하게 borderline을 찾는다는 보장이 있어야 한다. DBSMOTE(DBSCAN SMOTE) Minority data에 대하여 DBSCAN cluster 경..
7.18 (머신러닝과 데이터분석)class imbalanced problem>imbalanced problem 해결방법 (10:45) class imbalanced problem이란(14:13) IR (class imbalanced ratio) = # of majority class / # of minority class class imbalanced problem 이란? 모델이 소수의 데이터를 무시하는 현상 oversampling 기법 통해 minority 데이터를 부풀려서 사용가능 class imbalanced problem 에서 사용하는 모델 성능 지표 G-mean, F1 measure 정밀도 : 얼마나 잘 작동했는지 보여주는 지표 재현율 : 특이도 : ROC curve : 가로축 1-특이도, 세로축을 재현율로 하여 시각화한 그래표 AUC : ROC curve의 면적 class imbalanced problem 해결방법 (10:4..
7.15 (머신러닝과 데이터분석) k-means 1.clustering, 2.k-means clustering, 3.최적의 k k-means 1.clustering (6:22) 비지도학습 (unsupervied learning) 출력변수 (Y) 없음 군집분석 - 유사 데이터들낄 그룹화 PCA - 독립변수 차원 축소 Clustering? 데이터 유사도 측정, 분류, 군집 간에 상이성 규명 고객 segmentation을 통한 마케팅 활용 방안 / 군집 별 추가 분석수행 해석은 분석자가 수행 => classification 정확도가 높다. ( x와 y가 다 있을 경우, clustering의 정확도는 낮음) 종류 k-means clustering : 사용자가 지정한 k개의 군집으로 나눔 hierarchical clustering : decision tree 같은 계층구조 설정 DBSCAN : k개 설정 불필요 2.k-means clus..
7.14 (데이터엔지니어링) 터미널에서 데이터베이스 연결하기, mysql-데이터베이스 연결하기, mysql 데이터베이스안에서 테이블 생성, 엔터티 관계도란? 터미널에서 데이터베이스 연결하기 (7: 28 ) AWS에서 터미널로 데이터베이스 접속하기 + public accessibility 를 yes로 수정 필요 + vpc security inbound rule 수정 : mysql/aurora, tcp, port:3306, source: anywhere, + mysql --help, mysql : built-in으로 기 설치되어 있음 + mysql url -P 3306 -u username -p > **** > SHOW DATABASES; + 로컬에서 원격 데이터베이스 접근 mysql-데이터베이스 연결하기 ( 5:00) + mysql workbench - mysql installer 로 설치가능 + AWS 데이터베이스 접속정보 입력 후, connection 시도..
7.13 (딥러닝/인공지능)챕터 소개, 전체 구조 및 학습 과정, 딥러닝 용어- 챕터 소개(4:30) 강의 소개 전체 구조 및 학습 과정(13:18) loss / cost + 앞에서 얻은 Loss갑은 최소화하기 위해 기울기를 받아 최적화된 validation Result + 평가할 때 또는 예측된 결과를 확인할 때 깞에서 argmax를 통해 가장 높은 값 예측 Optimization + 특린 문제를 최소화 딥러닝 용어-1(14:04) + Layer층이 깊어질 수록 효율적으로 관리할 필요있음 : 여러 층, 깊을수록 좋다 but , + Weight, Filter, Kernel / Variable / Bias