딥러닝 기초이론

[딥러닝 기초이론6] 과적합(overfitting)과 로컬 미니멈(local minimum)

컴퓨터비전 LCK 2024. 3. 16. 19:35

이번 포스팅에서는인공지능의 고질적 문제 세가지에 대해 다뤄보겠다.

 

세가지 문제점들은 다음과 같다.

1. 과적합(overfitting)

2. 로컬 미니멈(local minimum)

3. 사라지는 기울기(vanishing gradient)

 

과적합 문제는 다음과 같다.

 

그림과 같이 두개의 군집을 분류하는 기준선을 만드는 모델을 예시로 들면,

length와 width 정보를 활용하여 두개의 군집으로 분류하는 모델

 

1번(파란 실선)은 일반적이지 않은 데이터까지 과도하게 학습하여 예측 성능에 영향을 미칠 수가 있다. 학습하지 못했던 새로운 데이터가 입력으로 들어왔을 때 잘못된 판단을 할 가능성이 높은 모델이다.

 

2번(주황 점선)은 적절하게 학습된 모델이라고 볼 수 있다. 일반적이지 않은 데이터가 예측모델에 반영되어있지 않음을 볼 수 있다.

 

3번(초록 실선)은 학습이 충분히 진행되지 않은 경우이다. 분류 성능이 떨어질 것으로 보인다.

 

 

다음은 로컬 미니멈(local minimum) 문제이다.

로컬 미니멈(local minimum)

 

로컬 미니멈은 말 그대로 지역 극소점에 그라디언트가 고여버리는 현상을 말한다.

 

그림을 보면 글로벌 맥시멈, 즉 전체 손실함수의 최소점보다 initial value에서 출발하여 그라디언트가 도착한 final value에서의 함수값이 더 크다.

 

 

마지막은 사라지는 기울기(vanishing gradient) 문제이다.

 

[딥러닝 기초이론3-1] 에서 다뤘던 것처럼 인공신경망은 각 층에서의 그라디언트를 곱해나가며 최종 그라디언트를 구한다.

그러나 층이 깊어지면 깊어질수록 오차가 역전파되는 과정에서 연속적으로 그라디언트가 곱해지게되고, 하위 계층의 그라디언트는 매우 작아져 하위 계층의 적절한 학습까지 매우 오랜 시간이 걸리거나 거의 학습되지 않는 현상이 발생하곤 한다.

 

위 세가지는 인공신경망의 고질적 문제들이며, 이를 해결하기 위한 많은 연구들이 현재에도 진행중에 있다.