일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- inflearn
- PYTHON
- search ads
- Def
- 오블완
- 검색광고 캠페인
- 파이썬 코딩 무료 강의 (기본편) - 6시간 뒤면 여러분도 개발자가 될 수 있어요 [나도코딩]
- ndarray
- 디지털 검색광고
- preprocessing
- 파이썬
- GA4
- MAC
- 머신러닝 입문 강좌 | TEAMLAB X Inflearn |
- postgresql
- 퍼포먼스 마케팅
- 데이터 전처리
- dvdrental
- 문자열 함수
- 티스토리챌린지
- dbeaver
- Pickle
- 외장함수
- b2b 마케팅
- google sa
- sql
- pgAdmin
- EXCEPT
- 숫자형
- 양승화
- Today
- Total
Maron's DATA Log
Day 2_지도학습 / 분류 / 회귀 / underfitting / overfitting 본문
Day 2_지도학습 / 분류 / 회귀 / underfitting / overfitting
maron2ee 2020. 12. 5. 10:53github.com/maron2ee/Machine-Learning/blob/main/ml01.ipynb
* 지도학습 (Supervised Learning)
: 데이터와 함께 레이블(정답)이 제공되어 정답을 알려주면서 진행되는 학습
(정답, 실제값, 레이블, 타겟, 클래스, y값...)
주어진 데이터와 레이블을 이용해 새로운 데이터의 레이블을 예측할 때 사용
(예측값, 분류값, y-hat...)
* 장점 : 데이터와 함꼐 레이블이 제공되어 손쉽게 모델의 성능을 평가할 수 있음
* 단점 : 데이터마다 레이블을 달기 위해 많은 시간이 소요
* 대표적인 예) 분류, 회귀
* 분류와 회귀의 차이점 : 데이터가 입력됐을 때 분류는 분리된 값으로 예측, 회귀는 연속된 값으로 예측
# 분류 (Classification)
: 데이터가 입력되었을 때 지도학습을 통해 미리 학습된 레이블 중 하나 또는 여러 개의 레이블로 예측
* 이진분류 : 둘 중 하나의 값으로 분류
* 다중분류 : 여러 개의 분류값 중에서 하나의 값으로 예측
* 다중 레이블 분류 : 데이터가 입력됐을 때 두 개 이상의 레이블로 분류
# 회귀 (Regression)
: 입력된 데이터에 대해 연속된 값으로 예측
# Underfitting (과소적합)
: 데이터에서 충분히 특징을 찾아내지 못하고 머신러닝 모델을 학습할 경우
# Overfitting (과대적합)
: 필요 이상의 특징으로 학습할 경우 (분산이 높을 경우)
데이터에서 특징을 필요 이상으로 추출할 경우 : variance (분산) 이 높아짐 - 더 많은 데이터를 확보하거나 학습에 사용된 특징을 줄여보기
필요 이하로 추출할 경우 : bias (편향) 이 높아짐 - 특징들의 수치값을 정규화해야
지도학습 프로젝트
-Scikit-Learn을 활용한 머신러닝 모델 구현-1
- 지도학습 알고리즘을 이용한 수치예측/분류분석
'Machine Learning > Python기반 머신러닝 데이터분석 실무과정' 카테고리의 다른 글
Day 4_Gradient Descent (경사하강법) / Polynomial Regression (다항 회귀) / Decision Tree (의사결정나무) (0) | 2020.12.05 |
---|---|
Day 3_비지도학습 / MNIST (손글씨) / Classification (분류) (0) | 2020.12.05 |
Day 1_머신러닝 기본 (0) | 2020.12.05 |