퍼셉트론 perceptron
신경망(Neural Network)을 이루는 기본 단위
용어정리
가중치(weight)
선형모델에서의 기울기 $ w_1, w_2, ..., w_M $
바이어스(bias ; 편향)
선형모델에서의 절편 $b$
가중합(weighted sum)
입력값($x$)와 가중치($w$)의 곱을 모두 더한 다음 거기에 바이어스($b$)를 더한 값
활성화 함수(actiivation function)
가중합의 결과를 놓고 1 또는 0을 출력해서 다음으로 보낼 때, 0과 1을 판단하는 함수
ex) 시그모이드(sigmoid) 함수, 렐루(ReLU) 함수
XOR 문제
다음과 같이 두 입력 값 $x_1$과 $x_2$가 있을 때, 출력 값 $y$를 가지는 모델을 찾는 것을 말한다.
$x_1$ | $x_2$ | $y$ |
0 | 0 | 0 |
0 | 1 | 1 |
1 | 0 | 1 |
1 | 1 | 0 |
이것을 그래프로 표현하면 다음과 같고 빨간점은 1을 하얀점은 0을 뜻한다.
여기서 하얀점과 빨간점을 나누는 하나의 직선으로 나누는 것이 단층 퍼셉트론인데 XOR문제는 단층 퍼셉트론으로는 해결할 수 없다.
이 문제를 해결한 것이 은닉층을 추가한 다층 퍼셉트론이다.
위의 표현을 행렬수식으로 나타내면 다음과 같다.
$$ W^{(1)} = \begin{pmatrix}-2&-2\\2&2\\ \end{pmatrix}, \; X = \begin{pmatrix} x1\\x2\\ \end{pmatrix}, \; B^{(1)} = \begin{pmatrix}3\\-1\\ \end{pmatrix}, \; N = \begin{pmatrix}n1\\n2\\ \end{pmatrix}, \; W^{(2)} = \begin{pmatrix}1\\1\\ \end{pmatrix}, \; B^{(2)} = -1 $$
$$ N = \sigma(W^{(1)}X+B^{(1)}), \; y = \sigma(W^{(2)}N+B^{(2)}), \; \sigma = 시그모이드함수 $$
이것을 풀어쓰면
$$ n1 = \sigma(-2x1-2x2+3), \; n2 = \sigma(2x1+2x2-1), \; y = \sigma(n1+n2-1) $$
시그모이드함수는 0.5를 초과하면 1을 출력하고 0.5 이하면 0을 출력한다.
$x1$ | $x2$ | $n1$ | $n2$ | $y$ |
0 | 0 | $\sigma(3)=>1$ | $\sigma(-1)=>0$ | $\sigma(0)=0.5=>0$ |
0 | 1 | $\sigma(1)=>1$ | $\sigma(1)=>1$ | $\sigma(1)=>1$ |
1 | 0 | $\sigma(1)=>1$ | $\sigma(1)=>1$ | $\sigma(1)=>1$ |
1 | 1 | $\sigma(-1)=>0$ | $\sigma(3)=>1$ | $\sigma(0)=0.5=>0$ |
다층 퍼셉트론
입력층과 출력층 사이에 숨어있는 은닉층을 만든 것으로 은닉층이 좌표 평면을 왜곡시키는 결과를 가져온다.(참조)
은닉층을 여러 개 쌓아올려 복잡한 문제를 해결하는 과정은 뉴런이 복잡한 과정을 거쳐 사고를 낳는 사람의 신경망을 닮았다. 그래서 이 방법을 '인공 신경망'이라 부르기 시작했고, 이를 간단히 줄여서 신경망이라고 통칭한다.
'AI > 기초' 카테고리의 다른 글
목적함수, 손실함수, 비용 함수, 오차 함수 (0) | 2022.04.15 |
---|---|
오차 역전파 back propagation 와 기울기 소실 vanishing gradient 문제 (0) | 2022.04.15 |
시그모이드(로지스틱) 함수와 소프트맥스 함수 (0) | 2022.04.14 |
뉴럴 네트워크(Neural Network)의 구조 (0) | 2022.04.14 |
선형회귀모델로 보는 가중치(기울기,절편) 찾기 ; 경사하강법(GD) (0) | 2022.04.14 |
댓글