Maron's DATA Log

[스스로 배우는 데이터 사이언스] 2주차 복습 강의 - 통계 본문

Machine Learning/스스로 배우는 데이터사이언스(AI 양재 허브)

[스스로 배우는 데이터 사이언스] 2주차 복습 강의 - 통계

maron2ee 2020. 12. 3. 21:28

Statistics

- Correlatation Vs. Casual

- Practical Significance Vs. Statistical Significance

 

- Confidence Interval

: 90% of confidence intervals computed at the 90% confidence level contain the parameter, 

95% of confidence intervals computed at the 95% confidence level contain the parameter

 

- Central Limit Theorem

 

- Frequentist Vs. Bayesian

* Frequentist : P(D|H)

* Bayesian : P(H|D)

   H : theta (모평균, beta, 모표준편차) -> random variable

 

- Gaussian Distribution

* normal

* central limit theorem (with iid and finite moments)

* maximum entropy (with specified moments -> mean/variance)

 

Principles of Statistics

* Probability

* Distribution

* Estimation

* Hypothesis test

* T-test

* Chi-squared test

* ANOVA

* Regression

 

Statistics in Basic ML

* Naive baeyesian - Multinomial, Gaussian

* LDA/QDA - Multivariage normal

* LDA (Latent Dirichlet Allocation) - Dirichlet, Multinomial

* K-means -> GMM - Multivariage normal

* Logistic regression - special case of GLM, assuming Bernoulli

* SVD/PCA (RS)

 

 

Regression Fitting

 

Y = ax + b 에서 a 와 b 를 어떻게 찾을 것인가

* Estimation -> OLS / MLE

* In regression, OLS = MLE

 

OLS : Ordinary Least Square

* 잔차의 제곱합을 최소화하는 방법론 -> 편미분

* 행렬의 계산 -> 역행렬을 중간에 한 번 구함

*  Full rank, Linearity independent (x 변수가 여러 개 있을때, 그들 사이에 선형독립이 만족되어야)

 

MLE : Maximum Likelihood Estimation

* Likelihood : 데이터가 나올 확률 (given theta)

* MLE : 데이터가 나올 확률이 제일 높은 a, b 의 값을 찾기

 

 

Goodness of fit

 

회귀 모형이 유의한가

F-test 모델이 유의

 

각 변수에 대해 유의성

t-value - 신뢰할 수 없음

다중 공선성, interaction...

Partial F-test, feature selection (AIC, BIC, CV error)

 

 

Assumption test

 

연구의 목적은 크게 2가지

1) 예측 (ML)

2) 추론 : 데이터 사이의 관계를 이해 (통계)

선형 회귀에서 추론을 하려면 가정이 만족되어야 (가정이 만족 -> 예측력 올라감)

 

가정

1. x 와 y 사이의 관계는 선형

2. 잔차의 분산은 일정 - bp test

3. 각 관측치는 독립적 - dw test

4. 잔차는 노말 - shapiro, kolmogorov

 

 

다중 공산성 Multicollinearity

Vif 로 확인

이상하면 - 선형적 의존성이 높은 변수 (vif 가 high) 를 제거

PCA - 해석이 더러워짐

 

PCA

새로운 차원의 projection

x1, x2, x3, ... , xn    -> z1, z2, z3, ... , zn 으로 바꾸는데

z1 = a1x1 + a2x2 + ... + anxn

z4 = a4x1 + a4x2 + ... + anxn

Eigen vector 를 이용해 - z1부터 정보량을 몰아줌

e.x) z1~z2까지 전체 정보 변동량의 95% 나머지 차원축소

 

PCA ~ SVD, SVD -> MF 로써 추천시스템에 활용 가능 

Autoencoding - PCA 랑 비슷 (차원축소)

 

 

ML 의 다양한 응용

DBSCAN : 비슷한 애들끼리 묶는 clustering

이상한 애들을 버림 - 이상탐지

 

잠재 디리클레 할당  

각 토픽별로 단어가 할당되어 있어서 (확률적으로)

e.x) 특정 문서가 A 토픽의 단어를 많이 가지고 있어 - 얘는 A 토픽

특정 유저가 A 토픽의 성질을 많이 가지고 있어 - 얘는 A 토픽

토픽이 꼭 토픽은 아니고 그냥 뭉쳐 놓은 잠재 변수야

그 변수를 클러스터로 보면 어떨까

클러스터링 완성

오래 걸리면 - Min-hash 로 길이 조정

Comments