Maron's DATA Log

Day 2_지도학습 / 분류 / 회귀 / underfitting / overfitting 본문

Machine Learning/Python기반 머신러닝 데이터분석 실무과정

Day 2_지도학습 / 분류 / 회귀 / underfitting / overfitting

maron2ee 2020. 12. 5. 10:53

github.com/maron2ee/Machine-Learning/blob/main/ml01.ipynb

 

maron2ee/Machine-Learning

Contribute to maron2ee/Machine-Learning development by creating an account on GitHub.

github.com

 

* 지도학습 (Supervised Learning)

: 데이터와 함께 레이블(정답)이 제공되어 정답을 알려주면서 진행되는 학습

(정답, 실제값, 레이블, 타겟, 클래스, y값...)

주어진 데이터와 레이블을 이용해 새로운 데이터의 레이블을 예측할 때 사용

(예측값, 분류값, y-hat...)

 

* 장점 : 데이터와 함꼐 레이블이 제공되어 손쉽게 모델의 성능을 평가할 수 있음

* 단점 : 데이터마다 레이블을 달기 위해 많은 시간이 소요

* 대표적인 예) 분류, 회귀

* 분류와 회귀의 차이점 : 데이터가 입력됐을 때 분류는 분리된 값으로 예측, 회귀는 연속된 값으로 예측

 

# 분류 (Classification)

: 데이터가 입력되었을 때 지도학습을 통해 미리 학습된 레이블 중 하나 또는 여러 개의 레이블로 예측

 

* 이진분류 : 둘 중 하나의 값으로 분류

* 다중분류 : 여러 개의 분류값 중에서 하나의 값으로 예측

* 다중 레이블 분류 : 데이터가 입력됐을 때 두 개 이상의 레이블로 분류

 

 

# 회귀 (Regression)

: 입력된 데이터에 대해 연속된 값으로 예측

 

 

# Underfitting (과소적합)

: 데이터에서 충분히 특징을 찾아내지 못하고 머신러닝 모델을 학습할 경우

 

# Overfitting (과대적합)

: 필요 이상의 특징으로 학습할 경우 (분산이 높을 경우)

 

데이터에서 특징을 필요 이상으로 추출할 경우 : variance (분산) 이 높아짐 - 더 많은 데이터를 확보하거나 학습에 사용된 특징을 줄여보기

필요 이하로 추출할 경우 : bias (편향) 이 높아짐 - 특징들의 수치값을 정규화해야

 

 

 

 

 

 


지도학습 프로젝트

-Scikit-Learn을 활용한 머신러닝 모델 구현-1
   - 지도학습 알고리즘을 이용한 수치예측/분류분석

 

 

Comments