본문 바로가기
AI/기초

퍼셉트론 perceptron과 신경망 Neural Network

by 하이방가루 2022. 4. 15.
728x90
반응형

 

 

퍼셉트론 perceptron

  신경망(Neural Network)을 이루는 기본 단위

 

용어정리

가중치(weight)

  선형모델에서의 기울기 $ w_1, w_2, ..., w_M $

바이어스(bias ; 편향)

  선형모델에서의 절편 $b$

가중합(weighted sum)

  입력값($x$)와 가중치($w$)의 곱을 모두 더한 다음 거기에 바이어스($b$)를 더한 값

활성화 함수(actiivation function)

  가중합의 결과를 놓고 1 또는 0을 출력해서 다음으로 보낼 때, 0과 1을 판단하는 함수

  ex) 시그모이드(sigmoid) 함수, 렐루(ReLU) 함수

 

XOR 문제

 다음과 같이 두 입력 값 $x_1$과 $x_2$가 있을 때, 출력 값 $y$를 가지는 모델을 찾는 것을 말한다.

$x_1$ $x_2$ $y$
0 0 0
0 1 1
1 0 1
1 1 0

이것을 그래프로 표현하면 다음과 같고 빨간점은 1을 하얀점은 0을 뜻한다.

여기서 하얀점과 빨간점을 나누는 하나의 직선으로 나누는 것이 단층 퍼셉트론인데 XOR문제는 단층 퍼셉트론으로는 해결할 수 없다.

이 문제를 해결한 것이 은닉층을 추가한 다층 퍼셉트론이다.

XOR문제를 해결하는 다층 퍼셉트론 구조 (은닉층과 출력층에 활성화 함수(시그모이드)는 생략되었다.)

위의 표현을 행렬수식으로 나타내면 다음과 같다.

$$ W^{(1)} = \begin{pmatrix}-2&-2\\2&2\\ \end{pmatrix}, \; X = \begin{pmatrix} x1\\x2\\ \end{pmatrix}, \; B^{(1)} = \begin{pmatrix}3\\-1\\ \end{pmatrix}, \; N = \begin{pmatrix}n1\\n2\\ \end{pmatrix}, \; W^{(2)} = \begin{pmatrix}1\\1\\ \end{pmatrix}, \; B^{(2)} = -1 $$

$$ N = \sigma(W^{(1)}X+B^{(1)}), \; y = \sigma(W^{(2)}N+B^{(2)}), \; \sigma = 시그모이드함수 $$

이것을 풀어쓰면

$$ n1 = \sigma(-2x1-2x2+3), \; n2 = \sigma(2x1+2x2-1), \; y = \sigma(n1+n2-1) $$

시그모이드함수는 0.5를 초과하면 1을 출력하고 0.5 이하면 0을 출력한다.

$x1$ $x2$ $n1$ $n2$ $y$
0 0 $\sigma(3)=>1$ $\sigma(-1)=>0$ $\sigma(0)=0.5=>0$
0 1 $\sigma(1)=>1$ $\sigma(1)=>1$ $\sigma(1)=>1$
1 0 $\sigma(1)=>1$ $\sigma(1)=>1$ $\sigma(1)=>1$
1 1 $\sigma(-1)=>0$ $\sigma(3)=>1$ $\sigma(0)=0.5=>0$

 

다층 퍼셉트론

  입력층과 출력층 사이에 숨어있는 은닉층을 만든 것으로 은닉층이 좌표 평면을 왜곡시키는 결과를 가져온다.(참조)

4개의 은닉층을 사용하여 약하게 얽힌 두 나선을 분류하는 과정

은닉층을 여러 개 쌓아올려 복잡한 문제를 해결하는 과정은 뉴런이 복잡한 과정을 거쳐 사고를 낳는 사람의 신경망을 닮았다. 그래서 이 방법을 '인공 신경망'이라 부르기 시작했고, 이를 간단히 줄여서 신경망이라고 통칭한다.

728x90
반응형

댓글