본문 바로가기
AI/기초

시그모이드(로지스틱) 함수와 소프트맥스 함수

by 하이방가루 2022. 4. 14.
728x90
반응형

시그모이드 함수

$$ p(x) = \frac{1}{1+e^{-z}} $$

시그모이드 함수의 성질(속성)

$ z $가 $ \infty $로 갈 때, $ e^{-z} $는 0으로 수렴하므로 $ p(x) $는 1로 수렴한다.

$ z $가 0일 때, $ e^{-z} $는 1이므로 $ p(x) $는 0.5가 된다.

$ z $가 $ -\infty $로 갈 때, $ e^{-z} $는 $ \infty $로 발산하므로 $ p(x) $는 0으로 수렴한다.

 

시그모이드 함수의 유용성

시그모이드 함수는 0~1 사이의 값을 가진다.

이것은 확률로 표현하기 좋으므로 0과 1, 두 개의 값 중 하나를 고를 때 유용하게 쓰인다.

ex) 이진 분류, 어떤 한 가지 사건이 일어날 확률

 

시그모이드 함수를 이용해 로지스틱 회귀를 풀어나가는 공식

$$ h(x_i) = \frac{1}{1+e^{-(ax_i+b)}} $$

기울기(가중치) a 값에 따른 그래프 변환

로지스틱 손실 함수 ( 로그 손실 함수 / 이진 교차 엔트로피 손실 함수 )

  로지스틱 손실 함수는 다중 분류를 위한 손실 함수인 크로스 엔트로피(cross entropy) 손실 함수를 이진 분류 버전으로 만든 것이다.

$ x_i $ 실제 입력 값

$y_i$ 실제 결과 값 -> 1 또는 0

$$ h_{\theta}(x_i) = \frac{1}{1+e^{-(\theta_1x_i+\theta_0)}} $$

$$ J(\theta) = -\frac{1}{m}\sum_{i= 1}^m[y_ilog(h_\theta(x_i)) +(1-y_i)log(1- h_\theta(x_i))] $$

$ y_i = 1 $일 때 $$ J(\theta) = -\frac{1}{m}\sum_{i= 1}^m log(h_\theta(x_i)) $$

$ y_i = 0 $일 때 $$ J(\theta) = -\frac{1}{m}\sum_{i= 1}^m log(1- h_\theta(x_i)) $$

$ h_{\theta}(x_i) $

파란선은 실제 결과$y_i$가 1일 경우 손실 함수

빨간 선은 실제 결과$y_i$가 0일 경우 손실 함수

 

경사 하강법을 적용하기 위한 편미분

$$ \frac{\partial}{\partial \theta_1} J = x_i(h_{\theta}(x_i) - y_i) $$

$$ \frac{\partial}{\partial \theta_0} J = h_{\theta}(x_i) - y_i $$

 

로지스틱 회귀를 퍼셉트론 방식으로 표현

 

소프트맥스 softmax

  분류의 문제에서 타깃이 3개 이상인 범주형 문제에 쓰이는 활성화 함수

  모든 출력의 총합이 1인 형태로 바꾸어 준다.

미분하기 쉽도록 다음과 같은 형태로 만들어졌다.

728x90
반응형

댓글