Perceptron

Perceptron złożony z jednego neuronu McCullocha-Pittsa

Perceptron – najprostsza sieć neuronowa, składająca się z jednego bądź wielu niezależnych neuronów McCullocha-Pittsa, implementująca algorytm uczenia nadzorowanego klasyfikatorów binarnych. Perceptron jest funkcją, która potrafi określić przynależność parametrów wejściowych do jednej z dwóch klas, poprzez wskazanie czy coś należy czy nie do pierwszej klasy. Może być wykorzystywany tylko do klasyfikowania zbiorów liniowo separowalnych^[1]. Aby móc testować przynależność do więcej niż dwóch klas, należy użyć perceptronu z większą ilością neuronów, w którym klasy zakodowane są jako wyjścia perceptronu (dla danych testowych), w postaci bitów.

Zasada działania

Działanie perceptronu polega na klasyfikowaniu danych pojawiających się na wejściu i ustawianiu stosownie do tego wartości wyjścia. Przed używaniem perceptron należy wytrenować, podając mu przykładowe dane na wejście i modyfikując w odpowiedni sposób wagi wejść i połączeń między warstwami neuronów, tak aby wynik na wyjściu przybierał pożądane wartości. Perceptrony mogą klasyfikować dane na zbiory, które są liniowo separowalne. Własność ta uniemożliwia na przykład wytrenowanie złożonego z jednego neuronu perceptronu, który wykonywałby logiczną operację XOR na wartościach wejść^[1]. Z matematycznego punktu widzenia wagi perceptronu tworzą wektor normalny, który określa prostą (w przypadku dwóch wejść) lub hiperpłaszczyznę decyzyjną^[2]. Trenowanie perceptronu to dopasowanie tej hiperpłaszczyzny do danych wejściowych, aby mógł wskazywać czy punkt należy lub nie należy do zbioru wskazywanego przez hiperpłaszczyznę. Dlatego tak ważne jest, aby dane były liniowo separowalne, inaczej dopasowanie do danych będzie niemożliwe.

Historia

Pojęcie perceptronu zostało wprowadzone przez Franka Rosenblatta w roku 1957. Perceptron zbudowany przez niego wraz z Charlesem Wightmanem był częściowo elektromechanicznym, częściowo elektronicznym urządzeniem, którego przeznaczeniem było rozpoznawanie znaków alfanumerycznych. Innowacją było tu zastosowanie procesu uczenia się jako metody programowania systemu. W roku 1969 Marvin Minsky i Seymour Papert wykazali ograniczenia perceptronów, co spowodowało długotrwały impas w pracach nad sztucznymi sieciami neuronowymi^[1].

Ograniczenia perceptronu

Jeśli potraktujemy wejście $X$ oraz wyjście $Y$ jako wektory liczb rzeczywistych, to warstwa neuronów zachowuje się jako macierz $N{:}$

Y=NX.

Działanie każdej kolejnej warstwy można przedstawić jako kolejne mnożenie przez pewną macierz:

Y=N_{5}N_{4}N_{3}N_{2}N_{1}X.

Wszystkie te mnożenia można zastąpić mnożeniem przez jedną macierz:

N^{*}=N_{5}N_{4}N_{3}N_{2}N_{1},

Y=N^{*}X.

A zatem sieć perceptronowa o dowolnie wielu warstwach potrafi wykonywać tylko te operacje, które potrafi wykonać sieć złożona z jednej warstwy neuronów – a jest to bardzo mało. Nie znaczy to jednak, że wielowarstwowe perceptrony są pozbawione sensu – chociaż już działający perceptron wielowarstwowy można zastąpić jednowarstwowym, to sposób w jaki taka sieć się uczy, jest zupełnie inny.

Sytuacja zmienia się całkowicie jeśli po każdej warstwie wstawimy jakąś funkcję nieliniową, taką jak:

f(x)=\left\{{\begin{matrix}0&{\text{dla }}x<0\\1&{\text{dla }}x>1\\x&{\text{w pozostałych przypadkach}}\end{matrix}}\right.

albo

f(x)=\left\{{\begin{matrix}1&{\text{dla }}x>1\\0&{\text{w pozostałych przypadkach}}\end{matrix}}\right.

itd.

Takie sieci neuronowe potrafią obliczać znacznie bardziej skomplikowane funkcje. Na przykład poniższa sieć neuronowa wylicza funkcję XOR:

Wejścia:

x_{1}

i

x_{2}

Neuron 1:

y_{1}=2x_{1}-2x_{2}

Funkcja nieliniowa po neuronie 1:

z_{1}=1

jeśli

y_{1}>1,

w przeciwnym wypadku

z_{1}=0

Neuron 2:

y_{2}=2x_{2}-2x_{1}

Funkcja nieliniowa po neuronie 2:

z_{2}=1

jeśli

y_{2}>1,

w przeciwnym wypadku

z_{2}=0

Neuron 3:

w=2z_{1}+2z_{2}

Funkcja nieliniowa po neuronie 3:

v=1

jeśli

w>1,

w przeciwnym wypadku

v=0

Wejścia		Wyjścia warstwy 1		Po funkcji nieliniowej		Wyjścia warstwy 2	Po funkcji nieliniowej (ostateczny wynik)
$x_{1}$	$x_{2}$	$y_{1}$	$y_{2}$	$z_{1}$	$z_{2}$	$w$	$v$
0	0	0	0	0	0	0	0
0	1	−2	2	0	1	2	1
1	0	2	−2	1	0	2	1
1	1	0	0	0	0	0	0

Zobacz też

perceptron wielowarstwowy

Przypisy

1 2 3 Marsland 2014 ↓.
↑ Bartkowiak 2002 ↓, s. 10.

Bibliografia

Stephen Marsland: Machine Learning. An algorithmic perspective. 2014. ISBN 978-1-4665-8328-3.
Anna Bartkowiak: Sieci Neuronowe: Notatki do wykładu „Sieci Neuronowe” dla studentów kierunku Informatyka na Uniwersytecie Wrocławskim. 2002.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[CITEREFMarsland2014-1] 1 2 3 Marsland 2014 ↓.

[CITEREFBartkowiak200210-2] Bartkowiak 2002 ↓, s. 10.

[1]

[2]