딥러닝 기초이론

[딥러닝 기초이론2-1] 선형회귀 손실함수와 적절한 학습률 설정

컴퓨터비전 LCK 2024. 3. 6. 12:46

 

[딥러닝 기초이론2] 에서 손실함수와 학습률(learning rate)에 대해 배워보았다.

 

 

이번 포스팅에서는

 

1. 선형회귀에서 MSE 손실함수가 자주 쓰이는 이유

 

2. 적절한 학습률(learning rate) 설정이 필요한 이유

 

이 두가지에 대해서 다뤄보겠다.

 

 

 

1. 선형회귀에서 MSE 손실함수가 자주 쓰이는 이유

 

 

1) 에러의 최댓값을 기준으로 하는 경우

maximum of errors

 

이 경우는 특이 데이터가 있을 시 그 데이터에 편향된 예측모델이 나온다는 문제점이 있다.

 

 

2) 오차 제곱의 합이 아닌 오차들의 합으로 손실함수를 설정하는 경우

sum of errors

 

이 같은 경우 에러들간의 부호가 달라지게 된다. 실제값에서 예측치를 뺀 값이 error가 되는데, 부호가 다르기 때문에 서로 상쇄되어 오차의 크기를 대변할 수 없게 된다.

 

그렇다면 절댓값들의 합은 어떨까? 

 

가능은 하지만 미분 불가능한 점이 생기게 된다는 점,

 

제곱의 합으로 했을 때 최소점에서 멀수록 기울기가 급격하여 큰 보폭으로 이동하게 된다는 장점등의 이유로 선형 회귀문제에서는 MSE 손실함수가 자주 사용된다.

 

 

 

2. 적절한 학습률(learning rate) 설정이 필요한 이유

 

 

1) learning rate 를 너무 작게 설정한 경우

learning rate를 너무 작게 설정하면 그림과 같이 weight의 업데이트가 작은 폭으로 진행되게 되고 적절한 학습까지 오랜시간이 걸리게 된다.

 

2) learning rate 를 너무 크게 설정한 경우

learning rate를 너무 크게 설정하면 이와 같이 최소점을 지나치는 경우가 발생할 수 있다. 이 경우 업데이트된 w와 최소점에서의 w간 차이의 절댓값이 이전보다 커지게 되면 오히려 학습을 지속할 수록 오차가 커지기도 한다.

 

 

아직까지 적절한 learning rate를 찾는 알고리즘은 없기 때문에 프로그래머가 직접 알맞은 learning rate를 설정해 주어야 한다.