머신러닝은 데이터셋의 종류로 크게 두가지로 나눌 수 있습니다.
지도학습과 비지도학습입니다.
지도학습은 학습데이터에 레이블이 포함된 데이터셋으로 학습하는 방식이고,
비지도학습은 학습데이터에 레이블이 포함되지 않은 데이터셋으로 학습하는 방식입니다.
그 전 글에서의 사과 분류를 예로 들어보겠습니다.
사과 이미지의 픽셀 데이터와 함께 '사과' 또는 'apple'과 같은 레이블을 포함하여 모델을 학습시킨다면 지도학습을 하는 것입니다. 모델은 사과를 학습하고, 사과와 비슷한 특징을 가지고 있는 이미지를 본다면 '사과'라고 예측을 할 것입니다.
하지만 사과 이미지와 바나나 이미지를 데이터셋으로 사용하되, 레이블이 포함되어있지 않은 데이터셋으로 모델을 학습시킨다면
비지도 학습을 하는 것입니다. 사과 이미지와 바나나 이미지를 특성 추출, 시각화 등 적절한 학습 알고리즘을 이용하여 군집화를 할 것입니다. 사과 이미지 구역은 A 구역, 바나나 이미지 구역은 B구역. 이런식으로 학습을 진행할 것입니다.
또한 준지도학습도 존재합니다. 단어에서 알 수 있었겠지만, 단어 그대로 어떤 학습 샘플은 레이블이 있고, 어떤 학습 샘플은 레이블이 없는 데이터셋으로 학습을 진행하는 것입니다. 사과 이미지와 바나나 이미지를 군집화하고, 사과 이미지는 A구역, 바나나 이미지는 B구역으로 분류를 했을 때. A구역에 포함된 사과 이미지 중에서 '사과'라는 레이블을 포함한 데이터가 한개라도 있다면 A 구역은 사과 구역이 될 수 있을 것입니다. B 구역도 마찬가지로 바나나 구역이 될 수 있습니다.
이와 같이 데이터셋의 종류로 머신러닝을 나누어 보았습니다.(지도학습, 비지도학습, 그리고 준지도학습)
'인공지능 > 이론' 카테고리의 다른 글
(6) 선형 회귀 (0) | 2021.10.10 |
---|---|
(5) ROC 곡선 (0) | 2021.10.07 |
(4) 정밀도/재현율 (0) | 2021.10.07 |
(3) 사례기반학습과 모델기반학습 (0) | 2021.10.06 |
(1) 머신러닝이란? (0) | 2021.10.06 |