일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Def
- EXCEPT
- 검색광고 캠페인
- 양승화
- PYTHON
- 파이썬 코딩 무료 강의 (기본편) - 6시간 뒤면 여러분도 개발자가 될 수 있어요 [나도코딩]
- b2b 마케팅
- 티스토리챌린지
- 머신러닝 입문 강좌 | TEAMLAB X Inflearn |
- MAC
- dbeaver
- Pickle
- google sa
- GA4
- 오블완
- 데이터 전처리
- ndarray
- inflearn
- dvdrental
- 숫자형
- pgAdmin
- 퍼포먼스 마케팅
- 디지털 검색광고
- sql
- postgresql
- 문자열 함수
- search ads
- preprocessing
- 파이썬
- 외장함수
- Today
- Total
Maron's DATA Log
[스스로 배우는 데이터 사이언스] 2주차 복습 강의 - 통계 본문
[스스로 배우는 데이터 사이언스] 2주차 복습 강의 - 통계
maron2ee 2020. 12. 3. 21:28Statistics
- Correlatation Vs. Casual
- Practical Significance Vs. Statistical Significance
- Confidence Interval
: 90% of confidence intervals computed at the 90% confidence level contain the parameter,
95% of confidence intervals computed at the 95% confidence level contain the parameter
- Central Limit Theorem
- Frequentist Vs. Bayesian
* Frequentist : P(D|H)
* Bayesian : P(H|D)
H : theta (모평균, beta, 모표준편차) -> random variable
- Gaussian Distribution
* normal
* central limit theorem (with iid and finite moments)
* maximum entropy (with specified moments -> mean/variance)
Principles of Statistics
* Probability
* Distribution
* Estimation
* Hypothesis test
* T-test
* Chi-squared test
* ANOVA
* Regression
Statistics in Basic ML
* Naive baeyesian - Multinomial, Gaussian
* LDA/QDA - Multivariage normal
* LDA (Latent Dirichlet Allocation) - Dirichlet, Multinomial
* K-means -> GMM - Multivariage normal
* Logistic regression - special case of GLM, assuming Bernoulli
* SVD/PCA (RS)
Regression Fitting
Y = ax + b 에서 a 와 b 를 어떻게 찾을 것인가
* Estimation -> OLS / MLE
* In regression, OLS = MLE
OLS : Ordinary Least Square
* 잔차의 제곱합을 최소화하는 방법론 -> 편미분
* 행렬의 계산 -> 역행렬을 중간에 한 번 구함
* Full rank, Linearity independent (x 변수가 여러 개 있을때, 그들 사이에 선형독립이 만족되어야)
MLE : Maximum Likelihood Estimation
* Likelihood : 데이터가 나올 확률 (given theta)
* MLE : 데이터가 나올 확률이 제일 높은 a, b 의 값을 찾기
Goodness of fit
회귀 모형이 유의한가
F-test 모델이 유의
각 변수에 대해 유의성
t-value - 신뢰할 수 없음
다중 공선성, interaction...
Partial F-test, feature selection (AIC, BIC, CV error)
Assumption test
연구의 목적은 크게 2가지
1) 예측 (ML)
2) 추론 : 데이터 사이의 관계를 이해 (통계)
선형 회귀에서 추론을 하려면 가정이 만족되어야 (가정이 만족 -> 예측력 올라감)
가정
1. x 와 y 사이의 관계는 선형
2. 잔차의 분산은 일정 - bp test
3. 각 관측치는 독립적 - dw test
4. 잔차는 노말 - shapiro, kolmogorov
다중 공산성 Multicollinearity
Vif 로 확인
이상하면 - 선형적 의존성이 높은 변수 (vif 가 high) 를 제거
PCA - 해석이 더러워짐
PCA
새로운 차원의 projection
x1, x2, x3, ... , xn -> z1, z2, z3, ... , zn 으로 바꾸는데
z1 = a1x1 + a2x2 + ... + anxn
z4 = a4x1 + a4x2 + ... + anxn
Eigen vector 를 이용해 - z1부터 정보량을 몰아줌
e.x) z1~z2까지 전체 정보 변동량의 95% 나머지 차원축소
PCA ~ SVD, SVD -> MF 로써 추천시스템에 활용 가능
Autoencoding - PCA 랑 비슷 (차원축소)
ML 의 다양한 응용
DBSCAN : 비슷한 애들끼리 묶는 clustering
이상한 애들을 버림 - 이상탐지
잠재 디리클레 할당
각 토픽별로 단어가 할당되어 있어서 (확률적으로)
e.x) 특정 문서가 A 토픽의 단어를 많이 가지고 있어 - 얘는 A 토픽
특정 유저가 A 토픽의 성질을 많이 가지고 있어 - 얘는 A 토픽
토픽이 꼭 토픽은 아니고 그냥 뭉쳐 놓은 잠재 변수야
그 변수를 클러스터로 보면 어떨까
클러스터링 완성
오래 걸리면 - Min-hash 로 길이 조정
'Machine Learning > 스스로 배우는 데이터사이언스(AI 양재 허브)' 카테고리의 다른 글
[스스로 배우는 데이터 사이언스] 3주차 복습 강의 - 선형 대수 (0) | 2020.12.12 |
---|---|
[스스로 배우는 데이터 사이언스] 1주차 복습 강의 - 클래스 (0) | 2020.12.02 |
[Goorm] 스스로 배우는 데이터사이언스 선발 테스트 평가 (0) | 2020.11.20 |