신경망, 퍼셉트론

패턴인식 & 기계학습 2014. 10. 24. 10:31

그녀(her)란 영화를 보면 OS1이라는 운영체제가 나온다. 주인공 테오도르가 OS1을 처음 설치한 이후에, OS1은 

100분의 2초만에 '아기 이름 짓는 법'이라는 책에 나오는 18만개의 이름 중 하나를 선택해 자신의 이름으로 삼는다.

이 영화에서는 운영체제는 "또 하나의 의식" 이라고 소개한다.


        

                      [그림 1] 그녀(her) 영화속의 한 장면


데이터를 어떻게 분류할 것인가를 놓고 많은 기계학습 알고리즘이 등장했다. '의사결정나무' 혹은 베이지언 확률로 

접근하는 '베이지언망', '서포트벡터머신(SVM)', '신경망'이 대표적이다.


신경망이란 기존의 뇌 구조를 컴퓨터로 모방하려는 발상으로, 신경들을 모아 신경망 모델로 확장시키는 개념이다.

초기 신경망은 선형 분류기에 불과하다는 한계로 신경망 연구는 한동안 빛을 보지 못했다. 하지만 최근 퍼셉트론의 

원리를 계승하고, 다층 퍼셉트론이 등장하며 신경망 연구는 새롭게 부활하기 시작했다. 

가장 간단한 퍼셉트론 모델부터 살펴보자.


퍼셉트론

퍼셉트톤(perceptron)의 구조는 [그림 2]와 같다. 여러개의 입력층을 모아 하나의 출력을 낸다.


        

                          [그림 2] 퍼셉트론 구조 (1)


하나의 출력은 이진 형태의 출력이다. 1과 -1을 출력하는데 [그림 3]의 c형태와 같다.

각 에지는 가중치를 가지며, 여러개의 입력을 받아 [그림3]의 b형식으로 각각의 에지의 가중치와

입력값을 계산해 활성함수에서 1과 -1을 출력한다.


                     [그림 3] 퍼셉트론 구조 (2)


활성함수 τ는 activation function으로 불리며 [그림 3] c와 같은 계단 함수(step function)를 사용한다.


동작 과정의 예는 다음과 같다.

2차원 공간 상에 [그림 4] a와 같은 네 개의 샘플 x1, x2, x3, x4가 존재한다고 할때,

x1는 w2에 속함을 볼 수 있다.([그림 4]c)

샘플과 부류 값으로 표시하면 x1 = (0,0), t1=-1, x2=(1,0), t2=1, x3=(0,1), t3=1, x4=(1,1), t4=1 이다.

이때 ti는 xi가 속하는 부류 정보이다.(w1에 속하면 1이고, w2에 속하면 -1)


                                 [그림 4] 퍼셉트론 동작 예제


OR게이트 동작의 분류 문제로 간주할때, 이 퍼셉트론은 w=(1,1), b=0.5(가중치)를 가진다.



위와 같은 방식으로 x3은 1을 출력함을 볼 수 있다.


퍼셉트론 식을 정리하면 다음과 같다.


이 퍼셉트론 모델은 선형 분류기(linear classifier)에 해당한다. 특징 공간을 둘로 나누는 것이다.

이 경계는 2차원에서는 직선, 3차원에서는 평면, 4차원에서는 초평면(hyperplane)이라고 부른다.

하지만 여기서 문제가 발생한다.


                 [그림 5] 선형분리 가능 모델과 불가능 모델


[그림 5]를 보면 a의 경우 파란선으로 선형분리가 가능하다. 하지만 b를 보면 선형 분리가 불가능함을

볼 수 있다. 이러한 한계로 한동안 빛을 보지 못한 퍼셉트론 모델은 퍼셉트론을 확장한 다층 퍼셉트론이란

아이디어가 나온 이후로 신경망 연구를 살릴 수 있었다. 


다음 포스트에서 다층 퍼셉트론 모델을 살펴본다.


참조 : 네이버케스트(딥러닝 - http://navercast.naver.com/contents.nhn?rid=122&contents_id=64183) 

         컴퓨터비전(오일석)

'패턴인식 & 기계학습' 카테고리의 다른 글

신경망 이론  (0) 2014.11.04
Boltzmann machine(볼츠만 머신)  (0) 2014.11.04
결정 트리 분기  (0) 2014.10.25
다층 퍼셉트론  (2) 2014.10.24
기계학습 기초(학습)  (0) 2014.10.24