강의
Deep Leraning: 기초
\(\rhd\) Overfitting, Underfitting
- Underfitting
주어진 모델이 데이터를 학습하기에 너무 부족한 성능을 보이는 경우
모델의 용량, 즉 자유도가 작기때문에 오차가 클 수 밖에 없는 경우이다.
이 경우 해결책은 모델의 자유도를 증가, 즉 모델의 파라미터를 늘려주면 해결할 수 있다.
- Overfitting
Underfitting과 반대로 주어진 데이터에 비해 모델의 성능이 너무 좋은 경우 발생한다.
학습데이터를 너무 과도하게 학습하여, 학습데이터에 한해서는 좋은 성능을 보이지만,
새로운 데이터가 들어왔을 때 오차율이 매우 커진다.
이러한 overfitting 현상을 해결하기 위한 방법은 크게 두가지가 있다.
첫 번째는, 데이터를 더 많이 수집하는 것이다.
애초에 overfitting이 발생하는 상황이 주어진 데이터에 비해 모델의 성능이 좋은 경우이다.
데이터의 양을 늘려주면 overfitting을 해결할 수 있다.
하지만 다양한 현실적인 문제들 때문에 데이터를 늘리기 쉽지 않은 경우들이 많다.
이럴 경우 규제화(regularization)을 이용한다.
가중치 감쇠는 이러한 규제화 기법중 하나이다.
가중치 감쇠는 모델의 성능을 제한하는 방법으로, 오차 함수에 규제항을 추가하여 데이터에 맞게 모델의 가중치를 적게해준다.
그 외에 딥러닝 학습에서 자주 사용되는 규제로
- 조기 종료(early stopping)
- 드롭아웃(dropout)
- 가중치 벌칙(parameter norm penalty)
- 데이터 확대(bagging - bootstrap aggregation)
- 앙상블(ensemble methods) 등이 있다.
\(\rhd\) 학습 방식에 따른 유형
- 지도 학습(supervised learing)
각각의 문제들에 대한 목표값(정답)이 모두 주어져있는 상황
회귀(regression)와 분류(classification) 문제로 구분
- 비지도 학습(unsupervised learing)
문제들은 제공되지만 목표값(정답)이 주어지지 않음
군집화(clustering), 밀도 추정(density estimation), 특징 공간 변환 등이 있음
대표적인 예) 추천 시스템
- 강화 학습(reinforcement learning)
목표값이 주어지지만 상대적이며, 지도학습과 다른 형태(== 보상)
상대적이란 말은 목표값이 과거와 미래에 다를 수 있음
- 준지도 학습(semi-supervised learning)
일부의 문제들은 목표값(정답)을 가지고 있지만, 나머지는 목표값(정답)이 주어지지 않은 상황
\(\rhd\) 오프라인 학습과 온라인 학습
일반적으로는 오프라인 학습형태를 띔
주어진 데이터에 대해서만 다룸
온라인 학습의 경우 스트리밍 형태로 계속 추가되는 데이터들에 대해 점증적인 학습을 수행