본문 바로가기

분류 전체보기

(43)
(9) 라쏘 회귀, 릿지 회귀, 엘라스틱넷, 조기 종료 모델의 과대적합을 해결하는 방법으로는 라쏘 회귀, 릿지 회귀, 엘라스틱넷, 조기종료가 있습니다. 이 네 가지 방법들은 간단합니다. 제일 먼저 라쏘 회귀에 대해 알아보도록 하겠습니다. 라쏘 회귀는 비용함수에 다음과 같은 항을 더합니다. 비용함수를 최저점으로 수렴하게 하면서 가중치들의 합을 적게 업데이트해 나가는 방식입니다. 라쏘 회귀는 자동적으로 특성 선택을 하고 희소 모델(sparse model)을 만듭니다. 라쏘 회귀에서는 L1 페널티를 사용합니다. 릿지 회귀는 L2페널티를 사용합니다. 비용함수에 다음과 같은 항을 더합니다. 릿지 회귀는 보통 규제가 전혀 없는 선형회귀 대신 사용하게 됩니다. 엘라스틱넷은 라쏘회귀와 릿지회귀를 합친 방법입니다. 비용함수에 다음과 같은 항을 추가합니다. r = 1이면 라쏘..
(8) 선형회귀 과대적합/과소적합 훈련세트에서는 좋은 결과를 내지만, 검증세트에서는 좋은 결과를 내지 못하는 모델을 흔히 과대적합된 모델이라고 표현합니다. 그리고 훈련세트와 검증세트 둘 모두에서 좋은 결과를 내지 못하는 모델을 과소적합이라고 부릅니다. 선형회귀에서 과대적합과 과소적합을 어떻게 발견하고, 해결할 수 있을까요 먼저 과대적합과 과소적합을 발견하는 방법을 말씀드리겠습니다. 가장 간단하게는 실제 데이터와 훈련한 모델을 시각화하여 살펴보는 것입니다. 수치적으로는 학습곡선으로 알아볼 수 있습니다. 학습곡선은 훈련세트의 크기나 epoch을 x축으로 하고 각 loss를 y축으로 하여 검증세트와 학습세트에 한해서 시각화해보는 것입니다. 과소적합의 학습 곡선은 학습셋과 검증셋의 간격이 좁고, 둘 모두 Loss가 높습니다. 과소적합은 모델의 ..
(7) 경사하강법 경사하강법(Gradient Descent)은 최적해를 찾는 최적화 알고리즘입니다. 경사하강법은 크게 배치 경사하강법, 미니배치 경사하강법, 확률적 경사하강법으로 나뉘어져 있습니다. 먼저 경사하강법의 큰 그림부터 살펴보도록 하겠습니다. 경사하강법은 비용함수(cost function)의 최저점을 찾는 알고리즘입니다. 모델을 경사하강법으로 학습시키기 위해 비용함수가 필요한 이유가 이 때문이죠. 1. 정의된 가중치로 비용함수를 사용하여 cost를 구합니다. 2. 각 가중치의 편도함수를 만들어 기울기를 구합니다. 3. 새로운 가중치는 현재 가중치 - 기울기로 구합니다. 이제 경사하강법을 세부적으로 알아보도록 하겠습니다. 모델의 비용함수를 Cost(W)로 정의했다고 해봅시다. 그레디언트 벡터는 다음과 같을 것입니다..
(6) 선형 회귀 선형 회귀 모델은 다음과 같은 형태로 모델을 학습합니다. w0, w1 .. wn 들을 원소로 하는 열벡터를 W로 하고, 특성들을 원소로 하는 열벡터를 X라고 한다면 다음과 같이 정리할 수 있습니다. 학습 방법은 다음 글에서 경사하강법을 소개하며 같이 설명하도록 하겠습니다.
(5) ROC 곡선 ROC 곡선은 이진분류기(decision function을 이용한) 를 평가하기 위한 좋은 평가 방법입니다. TPR (True Positive Rate)와 FPR(False Positive Rate)를 사용하여 평가하는 방법입니다. TPR 은 재현율과 같은 의미입니다. FPR 은 FP의 비율입니다. x축은 FPR이고, y축은 TPR입니다. 임곗값을 줄여가면서 FPR과 TPR을 그래프로 표현한 것입니다. FPR을 적게하면서 TPR이 높은, 즉 왼쪽 모서리쪽에 있는 그래프를 그려내야 좋은 분류기라고 할 수 있습니다. ROC Curve를 정적분한 값으로 AUC가 존재하는데 AUC가 높을수록 좋은 분류기입니다. 문제를 해결하기 위한 적절한 평가방법을 활용하여 효율적인 모델을 선택하고 문제를 해결해나가는 것이 좋..
(4) 정밀도/재현율 분류기에는 여러가지 평가 방법이 존재합니다. 가장 대표적으로는 정확도로 평가하는 방법이 존재합니다. 하지만 항상 정확도로 평가하는 것이 좋은 평가방법이 되지는 않습니다. 다음과 같이 비율이 조금 편향된 데이터로 학습한다고 예를 들어보겠습니다. 암 검진 결과 10000개의 훈련사례가 주어진다고 해봅시다. 9500개는 음성이고, 500개가 양성이라면 분류기가 전부 음성이라고 판단했을 때에도 정확도가 95%입니다. 그렇기 때문에 우리는 다른 평가방법을 사용해야 하고, 정밀도와 재현율이라는 것이 존재합니다. 그 전에 먼저 알아야 하는 것들이 있습니다. 오차 행렬이라는 것인데, confusion matrix라고도 불려집니다. TP, TN, FP, FN 이렇게 네개의 용어를 알고 가야합니다. TP는 True Pos..
(3) 사례기반학습과 모델기반학습 머신러닝은 학습 방법에 따라 크게 두가지로 나눌 수 있습니다. 사례기반학습과 모델기반학습이 존재합니다. 사례기반학습은 주어진 input에 대해 학습한 데이터셋에서 유사도를 측정하고 label을 예측하는 방법을 얘기한다. 모델기반학습은 데이터셋에 대해 모델을 만들고, input을 모델로 예측하는 방법을 얘기한다.
(2) 지도학습과 비지도학습 머신러닝은 데이터셋의 종류로 크게 두가지로 나눌 수 있습니다. 지도학습과 비지도학습입니다. 지도학습은 학습데이터에 레이블이 포함된 데이터셋으로 학습하는 방식이고, 비지도학습은 학습데이터에 레이블이 포함되지 않은 데이터셋으로 학습하는 방식입니다. 그 전 글에서의 사과 분류를 예로 들어보겠습니다. 사과 이미지의 픽셀 데이터와 함께 '사과' 또는 'apple'과 같은 레이블을 포함하여 모델을 학습시킨다면 지도학습을 하는 것입니다. 모델은 사과를 학습하고, 사과와 비슷한 특징을 가지고 있는 이미지를 본다면 '사과'라고 예측을 할 것입니다. 하지만 사과 이미지와 바나나 이미지를 데이터셋으로 사용하되, 레이블이 포함되어있지 않은 데이터셋으로 모델을 학습시킨다면 비지도 학습을 하는 것입니다. 사과 이미지와 바나나 이..