“ANN” Vidal PPR “Redes Neuronales Artiﬁciales”cvalle/INF-384/ANN.pdf · Series de tiempo...

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation

Aprendizaje yGeneralizacion

RBF

AprendizajeCompetitivo

PCA y ANN

Series detiempo

“Redes Neuronales Artificiales”

Carlos Valle [email protected]

Departamento de Informatica -Universidad Tecnica Federico Santa Marıa

Santiago, Abril 2009

1 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Temario

1 Projection Pursuit Regression

2 Fundamentos

3 Perceptron

4 Redes neuronales Multicapas

5 BackPropagation

6 Aprendizaje y Generalizacion

7 Redes con funciones de radio basal

8 Aprendizaje Competitivo

9 PCA y ANN

10 Series de tiempo

2 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Temario


2 Fundamentos

3 Perceptron


5 BackPropagation




9 PCA y ANN

10 Series de tiempo

3 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Projection Pursuit Regression

La idea central es extraer combinaciones lineales de lasentradas, utilizandolas como entradas y se modela la salida(target) como una funcion no lineal de esas entradas.

En el problema de aprendizaje supervisado, asumimos quetenemos un vector de entrada X con p componentes y unasalida Y .

Sea wm,m = 1,2, . . . ,M vectores de tamano p querepresentan los parametros desconocidos del modelo.

4 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Projection Pursuit Regression (2)

El modelo PPR tiene la forma

f (X) =M

∑m=1

gm(wTmX) (1)

Este es un modelo aditivo pero en las caracterısticasderivadas Vm = wT

mX.

Las funciones gm no se especifican y se estiman junto con lasdirecciones wm usando metodos de suavizamiento flexible.

5 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Ridge Functions

En la figura de la izquierda w = (1/sqrt2)(1,1)T . A laderecha w = (1,0)

6 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

PPR

Este modelo es muy general ya que existen formas deescribir funciones no lineales como combinacion defunciones lineales. Por ejemplo, X1 ·X2 se puede escribircomo [(X1 +X2)2− (X1−X2)2]/4.

Si M es arbitrariamente largo, para una eleccion de gm

apropiada el modelo PPR puede aproximar cualquier funcioncontinua en Rp arbitrariamente bien. Esta clase de modelosse conocen como aproximadores universales.

7 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

PPR (2)

El problema de este metodo es la falta de interpretacion delmodelo.

Para ajustar un modelo PPR, dado un conjunto deentrenamiento (xi,yi), i = 1,2, . . . ,N, debemos minimizar lafuncion de error:

N

∑i=1

[yi−

M

∑m=1

gm(wTmxi)

]2

(2)

Para resolverlo necesitamos estimar gm y wm

simultaneamente.

Consideremos M = 1, dado el vector w formamos lasvariables vi = wTxi. Por lo tanto tenemos un sistema dondepodemos aplicar smoothing splines para estimar la funcion g.

8 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

PPR (3)

Dado g queremos estimar w tal que minimice el error.Utilizando el metodo Gauss-Newton:

g(wTxi)≈ g(wToldxi)+g′(wT

oldxi)(w−wold)Txi (3)

Por lo tanto

N

∑i=1

[yi−g(wTxi)]2 ≈

N

∑i=1

g′(wToldxi)2

[(wT

oldxi +yi−g′(wT

oldxi)g′(wT

oldxi)

)−wTxi

]2

(4)

9 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

PPR (4)

Para minimizar el termino de la derecha aplicamos regresion

cuadratica sobre xi con target wToldxi +

yi−g′(wToldxi)

g′(wToldxi)

y pesos

g′(wToldxi)2

De esta manera se calcula el nuevo valor de w.

Los dos pasos descritos anteriormente se iteran hastaobtener convergencia.

Su demanda computacional es muy alta, por lo que no esmuy utilizado, pero representa una fuente de inspiracion paralo que sigue.

10 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Temario


2 Fundamentos

3 Perceptron


5 BackPropagation




9 PCA y ANN

10 Series de tiempo

11 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Fundamentos

Engloba actualmente una gran conjunto de modelos ymetodos de aprendizaje. Su nombre viene del modelohumano para el cerebro, donde cada unidad representa unaneurona y las conecciones representan sinapsis.

La primera definicion de ANN tenıa senales de entradax1(t),x2(t), . . . ,xn(t) en el tiempo t.

La entrada a una neurona a(t) es evaluada comow1 · x1(t), . . . ,wn · xn(t) y la salida σ(a) llamada funcion deactivacion donde la neurona se activa si pasa el umbral w0

σ(a) =

{1 si a≥ w0

0 si a < w0

12 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Fundamentos (2)

La salida es

o(t +1) = σ

(n

∑i=1

wixi(t)

)

13 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Funciones de activacion

Otras funciones de activacion σ(a) ∈ [0,1]

σ(a) = a

σ(a) =1

1+ e−ha

σ(a) = tanh(a) =ea− e−a

ea + e−a

Algunos paradigmas de ANN utilizan unidades estocasticas,donde la salida se define probabilısticamente

P(o(t +a) =±1) = σ(a) =1

1+ e∓2βa(t)

14 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Funciones de activacion (2)

La tasa de activacion de esta funcion depende de ||αm||, sies muy pequena operara en la parte lineal de la funcion deactivacion.

15 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Estrategias de Aprendizaje

Si se conocen los valores de salida del problema Vaprendizaje supervisado. La ANN es retroalimentada paracorregir los posibles errores.

Cuando los valores de salida son desconocidos Vaprendizaje no supervisado. No hay retroalimentacion.

16 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Temario


2 Fundamentos

3 Perceptron


5 BackPropagation




9 PCA y ANN

10 Series de tiempo

17 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Perceptron

Consiste en una capa de p unidades conectadas (salidas)con n entradas

18 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Perceptron (2)

Cada salida oi es una funcion explıcita de la entradax = [x1, . . . ,xn]T y se calcula

oi = σ(ai) = σ

(n

∑k=0

wikxk

), i = 1, . . . ,p

xk ∈ [0,1],k = 1, . . . ,n y oi ∈ [0,1], i = 1, . . . ,p

x0 = 1, y wi0 es el peso del umbral

19 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Regla Delta

Sea T el conjunto de entrenamiento de m ejemplos.

Sea xq el vector de entrada y dq el targetT = {(xq,dq)|q=1,...,m}Queremos ajustar los pesos de la red, de manera que lasalida oq del vector xq se parezca a dq (supervisado)

El conjunto de pesos W = {wik} sera el que produzca enpromedio el menor error

Definamos una medida de error E(W) respecto de la matrizde pesos de la red.

Si W es derivable respecto de wik podemos aplicaralgoritmos de optimizacion del tipo gradiente V Gradientedescendente

20 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Regla Delta (2)

La funcion de error mas usual es

E(W) =12

m

∑q=1

p

∑i=1

(oqi −dq

i )2 =

m

∑q=1

Eq(W) (5)

Eq(W) =12

p

∑i=1

(oqi −dq

i )2 (6)

Comenzando con un W inicial, el gradiente descendentesugiere moverse en la direccion opuesta al gradiente

wik(u+1) = wik(u)+∆wik(u)

∆wik(u) = −η∂E(u)∂wik

=−η

m

∑i=1

∂Eq(u)∂wik

=m

∑q=1

∆wqik(u)

∆wqik(u) = −η

∂Eq(u)∂wik

21 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Regla Delta (3)

η es la tasa de aprendizaje, u indica un ciclo de esteprocedimiento sobre todo el training set T V epoca

Estrategias: batch e incremental

Si la funcion de activacion σ(a) es diferenciable, la derivadaparcial del error para el ejemplo q es

∂Eq

∂wik=

∂12 ∑

pi=1 (oq

i −dqi )

2

∂wik(7)

= (oqi −dq

i )∂σ(∑n

k=0 wikxqk)

∂wik(8)

= (oqi −dq

i )σ′(aq

i )xqk = δ

qi xq

k (9)

22 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Regla Delta (4)

Con δqi = (oq

i −dqi )σ′(aq

i ),aqi = ∑

nk=0 wikxq

k

Entonces ∆wqik =−ηδ

qi xq

k

La cantidad δqi que se usa para calcular ∆

qik solo depende de

los parametros de la red V facilidad de implementacion

Si la funcion es la sigmoidal conh = 1⇒ σ′(a) = σ(a)(1−σ(a)) V calcular δ

qi es simple

23 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Regla Delta (5)

Usando batch se puede probar que si la solucionW∗,{W∗ : E(W∗) = minW E(W)} existe y si η es pequeno,entonces la regla converge a W∗

Sin embargo el algoritmo es sensible a pequenas variacionesde η

24 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Temario


2 Fundamentos

3 Perceptron


5 BackPropagation




9 PCA y ANN

10 Series de tiempo

25 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Perceptron Multicapa

Utilicemos la filosofıa de PPR para transformar el vector deentrada introduciendo mas capas a la red

Son llamadas MLP o MFNN

Cada MLP tiene una capa de entrada un numero de capasescondidas y una capa de salida.

26 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Perceptron Multicapa (2)

Si la funcion de activacion es la sigmoidal se puede probarque se puede aproximar cualquier frontera de decisionusando un perceptron de 2 capas con un numero suficientede neuronas

Eso se llama propiedad universal y significa que un MLPprovee un discriminante universal con funciones no lineales

Supongamos que tenemos un MLP con L capasl = 0,1, . . . ,L, l = 0 es la capa de entrada, l = L es la capade salida.

27 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


Cada capa l tiene n(l) neuronas. Cada neurona valor desalida oi de la unidad i de la capa l puede calcularse

oi = σi(ai) = σi

(n(l−1)

∑k=0

wikxk

), i = 1, . . . ,n(l) (10)

Donde las entradas xk de la unidad i corresponde a ok, lassalidas de la capa l−1

En particular para una red feedforward de 2 capas (L = 2)con una salida oi (p=1) con funcion de activacion lineal

28 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


La red puede ser escrita como:

oi =n(1)

∑k=0

wikok,oi ∈ c. de salida,ok ∈ c. escondida

ok = σk

(n(0)

∑j=0

vkjxj

),xj ∈ vector de entrada

oi =n(1)

∑k=0

wikσk

(n(0)

∑j=0

vkjxj

)=

n(1)

∑k=0

wikσk(vTk x+ vk0)+wi0

29 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


Donde vTk es el vector de pesos desde la capa de entrada a la

unidad k de la capa l = 1

wik es el peso de la conexion entre la unidad k de la capaoculta l = 1 y la salida i en la capa de salida l = 2

MLP puede verse como un caso especial de regresion nolineal

Para entrenar una MLP no se puede usar regla delta porquelos target de las capas ocultas son desconocidos.

30 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Temario


2 Fundamentos

3 Perceptron


5 BackPropagation




9 PCA y ANN

10 Series de tiempo

31 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Algoritmo de Retropropagacion

Este algoritmo consiste en dos pasos1 Una propagacion hacia adelante desde la entrada a la salida

de la red2 Una propagacion hacia atras del vector de error desde la

salida hacia la capa de entrada

Consideremos la suma de errores parciales (5), y apliquemosla tecnica incremental al conjunto de entrenamiento T de mejemplos T = {(xq,dq)|q=1,...,m}

32 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Algoritmo de Retropropagacion (2)

El primer paso es evaluar las salidas de la red oq1, . . . ,o

qp,

para obtener Eq(W) sobre la capa de salida L (propagacionhacia adelante)

Si Eq(W) 6= 0, necesitamos la actualizacion ∆Wq

Aplicando gradiente descendente a cada peso wik queconecta la unidad k de la capa l−1 con la unidad i en lacapa l

∆wqik =−η

∂Eq

∂wik

33 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


34 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


Usando la regla de la cadena la derivada parcial se expresacomo

∂Eq

∂wik=

∂Eq

∂aqi

∂aqi

∂wik

De la ecuacion (10) obtenemos:

∂aqi

∂wik= oq

k

Usando

δqi =

∂Eq

∂aqi

Se deriva∂Eq

∂wik= δ

qi oq

k

∆wqik =−ηδ

qi oq

k , i ∈ capa l,k ∈ capa l−1 (11)

35 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


Notemos que la ecuacion anterior tiene la misma forma quela regla delta (7) para actualizar los pesos de un perceptronmulticapa

Para las neuronas de salida, es decir, i ∈ capa L la regladelta es

δqi =

∂Eq

∂aqi

= σ′(aq

i )(oqi −dq

i ), i ∈ c.salida L (12)

El problema es como evaluar ∂Eq

∂aqi

para las neuronas de la

capa escondida, es decir, para i ∈ capa 0 < l < L

36 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


Usando la regla de la cadena obtenemos la contribucion dela capa l+1 de la cantidad δ

qi

δqi =

∂Eq

∂aqi

=n(l+1)

∑j=1

∂Eq

∂aqj

∂aqj

∂aqi

n(l+a) es el numero de unidades j de la capa l+1.El termino ∂Eq

∂aqj

es la cantidad δqj definidos para las unidades j

en la capa l+1

Considerando (10) tenemos∂aq

j

∂aqi= σ′(aq

i )wji.

Entonces para las unidades escondidas i:

δqi = σ

′(aqi )

n(l+1)

∑j=1

wjiδqj , i ∈ capa l < L, j ∈ capa l+1 (13)

37 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


Comenzando con el calculo de δ en la capa de salida L (12)

Es posible calcular los δ para las unidades escondidas de lascapas intermedias l < L usando δ de la capa l+1 (13)

Finalmente se actualizan todos los pesos con ∆wqik en la

ecuacion (11), y comienza todo el proceso de nuevo con elsiguiente xq

Se puede usar un numero de epocas como criterio determino o un valor umbral para el error de entrenamiento

El costo computacional es aproximadamente O(Nw), dondeNw es el numero de pesos de la red

38 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


Algoritmo 1 Retropropagacion1: Inicializar los pesos wik con valores aleatorios2: Aplicar en patron de entrenamiento xq a la capa de entrada3: Propagar xq hacia delante desde el terminal de entrada a la capa de salida de

acuerdo a (10)4: Calcular error Eq(W) sobre la capa de salida de acuerdo a (5)5: Computar δs de la capa de salida como en la ecuacion (12)6: Computar δs de las capas precedentes propagando hacia atras (13)7: Usar ∆wq

ik =−ηδqi oq

k , donde i ∈ capa l y k ∈ capa l−1∀wik de la red8: q→ q+1 ir a paso 2

39 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


Se pueden aplicar ambos metodos batch e incremental

El metodo incremental suele ser mejor en la mayorıa de loscasos, en especial para conjuntos de entrenamientoregulares

Se puede extender facilmente a redes parcialmenteconectadas.

Como se observa, cada neurona recibe informacion deaquellas con las que se conecta, por lo que se puedeimplementar en una arquitectura paralela.

η→ 0

40 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Ajustando Funciones

41 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Temario


2 Fundamentos

3 Perceptron


5 BackPropagation




9 PCA y ANN

10 Series de tiempo

42 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Mınimos locales

Back-propagation converge en los puntos W∗ : ∇E(W∗) = 0

Si la red tiene muchas capas pueden existir muchos mınimoslocales, elegir W inicial es clave

Al usar sigmoidal deben ser pequenos para que trabaje en elsector ±1

Usar una distribucion inicial de pesos N(0,σ2), dondeσ = n(l−1)−1/2

Ejemplos de entrenamiento en orden aleatorio

Newton, cuasi-Newton, Levenberg-Marquardt

Utilizar Bagging.

43 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Funciones de Error

Una alternativa es promediar el MSE, de esta manera el errorno crece dependiendo del tamano del conjunto deentrenamiento

RMS(W) =1m

m

∑q=1

p

∑i=1

(oqi −dq

i )2

Si queremos aprender la distribucion condicional p(d|x)La entropıa relativa fuerza a la red a aprender la hipotesisrepresentada por la unidad oi con una probabilidad

(1/2)(1+oqi ) =

[12(1+dq

i ) ln 1+dqi

1+oqi+ 1

2(1−dqi ) ln 1−dq

i1−oq

i

]

E(W) =m

∑q=1

p

∑i=1

{γ(oq

i −dqi )

2 si sign(dqi ) = sign(oq

i )(oq

i −dqi )

2 si sign(dqi ) =−sign(oq

i )

}44 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Momentum

Ya discutimos sobre la importancia de η en la calidad de lasolucion final

Se propone usar en cada paso u de entrenamiento

∆wik(u) =−η∂E(u)∂wik

+α∆wik(u−1)

α > 0 llamado momentum, se elige entre 0.1 y 0.8

Darle inercia al peso wik (evitar cambios drasticos)

η dinamico

∆η(u) =

+aη(u−1) si∆E(W,z) < 0,z = u−1, . . .u−U−bη(u−1) si∆E(W,z) > 0,z = u−10 e.t.o.c

Otros metodos: delta-delta, delta-bar-delta y Quickprop45 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Sobre entrenamiento

En general la red neuronal con muchos pesos tiende aminimizar muy bien la funcion de perdida R(θ) V bajacapacidad de generalizacion.La regla de detencion temprana, se detiene el entrenamientocuando se alcanza una cota para el error R(θ).Tambien se puede ocupar un conjunto de validacion, ydetener el entrenamiento cuando el error de validacionaumenta.Entrenamiento con ruido

46 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Sobreentrenamiento (2)

47 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Decaimiento de pesos

Una tecnica mas explıcita es decaimiento de pesos el queconsiste en definir una nueva funcion de errorR1(θ) = R(θ)+λJ(θ) donde

J(θ) = ∑ik

w2ik (14)

donde λ es un nuevo parametro a optimizar, si el valoraumenta se fuerza a que los pesos decrezcan.

Otra forma de penalizar

J(θ) = ∑i,k

w2ik

1+w2ik

(15)

48 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Decaimiento de pesos (2)

49 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Escalando las Entradas

el valor de xi determina los rango de los pesos, por lo tanto,influye tambien en el desempeno de la funcion de activacion.

Una forma es estandarizar por la media y la desviacionestandar, para tener datos de media cero y varianza 1.

Otra forma es estandarizar de manera lineal.

Se dice que utilizando estandarizacion de datos, convieneelegir pesos aleatorios en el rango [−0.7,0.7].

50 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Tamano de la red

Un numero pequeno de parametros de la red contribuye a labuena generalizacion, junto con acortar el tiempo deentrenamiento

Algoritmos de Crecimiento

Algoritmos de Poda

51 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Discusion

Tanto Redes Neuronales como PPR trabajan con un modelono lineal de combinaciones lineales de caracterısticasderivadas de las entradas, esto les da una aproximacion muygeneral y los hace competitivos con los mejores metodos deaprendizaje en muchos problemas.

Son muy efectivos en problemas donde la interpretacion noes vital, por ejemplo, problemas con mucho ruido. Siqueremos describir la salida en terminos de las entradas,estos modelos no son muy eficientes.

Una red neuronal requiere de un numero de operaciones delorden de O(NpML), siendo N el numero de observaciones,M neuronas en la capa escondida y L epocas deentrenamiento.

52 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Temario


2 Fundamentos

3 Perceptron


5 BackPropagation




9 PCA y ANN

10 Series de tiempo

53 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Redes RBF

La idea subyacente es que cada unidad de la capa ocultarepresenta una region del espacio de entrada

Cada unidad de la capa oculta contiene un prototipo de uncluster en el espacio de entrada

Cuando llegue un nuevo patron a la red la unidad con elprototipo mas similar activara la decision dentro de la red

La funcion de activacion debe incluir el concepto de prototipoV similaridad

54 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Arquitectura RBF

Incluye una capa de unidades especiales V pre-procesan laentrada para alimentar un perceptron de una capaCada unidad k tiene de la capa escondida tiene un prototipoxk dada una region k del espacio de entradaΦk() es la funcion de activacion V expresa la similaridadentre el patron x y el prototipo xk mediante una metrica dedistanciaCon H unidades ocultas y un vector de salida p-dimensional

55 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Arquitectura RBF (2)

wik es la conexion entre la unidad oculta k y la unidad desalida i

wi0 es el valor de umbral de la unidad i

Φ0 = 1

Φk(x) = Φk(||x− xk||),k = 1, . . . ,H

oi(x) =H

∑k=1

wikΦk(k)+wi0, i = 1, . . . ,p

Capa de salida tiene funcion lineal o sigmoidal

Φ→ 0 si ||x|| → ∞

56 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


Lo usual es utilizar gaussianas

Φk(x) = e− ||x−µk ||

2

2σ2k

Puede ser generalizada

Φk(x) = e−12 (x−µk)T Σ

−1k (x−µk) (16)

Solo participan las neuronas ocultas que estan muy cercanasa xq V mayor eficiencia

Como obtener el mınimo H, σk es ajustable

57 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


En clasificacion Φk() puede interpretarse comop(cluster k|x), la probabilidad que el vector x pertenezca alcluster k

Los pesos wik a la capa de salida pueden ser interpretadoscomo p(Ci|cluster k), probabilidad de la clase Ci dado elcluster k

58 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Algoritmos de Entrenamiento

Supongamos aprendizaje supervisado y la funcion de errores la suma de cuadrado (5)

Modificar algoritmo de retro-propagacion

Esto tiene buenos resultados pero presenta desventajas

Caro computacionalmente y puede caer en mınimos locales,debe forzarse que σk sea pequeno para no perder lapropiedad local de la RBF

59 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Estrategia Hibrida

La estrategia de aprendizaje hıbrida divide el entrenamientoen dos etapas

1 xq se usa sin dq para determinar los parametros Φk: µk,σk sielegimos gaussianas

2 Los parametros de las funciones base permanecen fijos y secalculan los pesos son un algoritmo supervisado (ej:backpropagation)

60 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

K-means

k-means: Divide el espacio en un numero de cluster H

µk de la k-esima unidad oculta se obtiene mediante elpromedio de los Nk ejemplos del cluster SK

µk =1

NK∑

q∈Sk

xq

Esta solucion es el mınimo de la distancia euclideana J entrecada patron de entrenamiento m al centro µk

J =H

∑k=1

∑q∈Sk

||xq−µk||2

61 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

K-means (2)

Cada punto xq se reasigna al cluster Si (prototipo mascercano) µi : ||xq−µi||= minj ||xq−µj||Se vuelve a calcular el prototipo de Sk hasta que no seobserven cambios

σk se obtiene mediante heurısticas para lograr cierto traslapoentre las unidades y sus vecinas

Por ejemplo, elegir cada σk al σ promedio de la distanciaeuclidiana ente cada prototipo µi y su vecino mas cercano µj

σ =1H

H

∑i=1||µi−µj||,con µj : ||µi−µj||= min

k||µi−µj||

62 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

K-means (3)

Version adaptiva: Para cada patron xq el centro del clustermas cercano µq

k : minj ||xq−µqj || se mueve en una cantidad

∆µqk = η(xq−µq

k)

La capa escondida de un RBF puede verse como una mezclade H Gaussianas o(x) = ∑

Hj=1 αj(x)φj(x)

αj(x) y Φj(X) pueden encontrarse maximizando la funcionde verosimilitud

L =m

∏q=1

p(xq)

Para entrenar la capa de perceptrones, la alimentamos con lasalida de la RBF y aplicamos la regla delta V converge masrapido que Back-propagation a una MLP

63 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Algoritmo mınimos cuadrados ortogonales

Las unidades escondidas son introducidas secuencialmente

Cada unidad se centra sobre un patron de entrenamiento xq

y se mide el error de clasificacion

El patron xj con el menor error residual se retiene comoprototipo de la primera neurona RBF

La segunda unidad se elige considerando los m−1 ejemplosrestantes usando el mismo criterio anterior

Cuando parar.

Algoritmo caro computacionalmente

64 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Redes neuronales probabilısticas

En esta arquitectura la primera capa es de RBFs con (16), laque estima Φk(x) = p(cluster k|x)Considerando p clases de salida, hi clusters en el espacio deentrada representaran la clase de salida Ci, i = 1, . . . ,p

Por lo tanto la capa escondida tendra H = ∑pi=1 hi de

unidades RBF seran introducidas en la capa escondida

Cada una con funcion de activacionΦ(x) = pi

k(x) = p(cluster k|k∈Ci|x),k = 1, . . . ,hi, i = 1, . . . ,p

La segunda capa escondida tiene unidades lineales llamadasunidades de suma.

65 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Redes neuronales probabilısticas (2)

Cada unidad i representa la clase de salida Ci y recolecta lascontribuciones de las hi RBF unidades asociadas a la clasede salida Ci

oi =hi

∑k=1

wikpik(x) =

hi

∑k=1

p(Ci|cluster k)p(cluster k|x) = p(Ci|x)

66 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


La unidad i aproxima la probabilidad a posterior p(Ci|x) de laclase Ci dado el vector de entrada x ponderando con lospesos wik que representan la probabilidad a posteriorp(Ci|cluster k)Tambien se puede asignar el costo vjl a la decision deasignar el patron x a la clase l en lugar de la clase j, a la cualrealmente pertenece

La tercera capa de unidades de decision estiman el riesgo dela decision rj para la clase j

rj =p

∑l=1

wjlol(x) =p

∑l=1

vjlp(Cl)ol(x)

67 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


ol es la unidad de suma l

vjlp(Cl) representa el peso entre la unidad de suma l y launidad de riesgo j

El objetivo es elegir Cj con mınimo riesgo rj

68 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Temario


2 Fundamentos

3 Perceptron


5 BackPropagation




9 PCA y ANN

10 Series de tiempo

69 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Aprendizaje competitivo

El conjunto de entrenamiento T tiene ejemplos solamentecon patrones de entrada T = {xq}Se busca encontrar regularidades,cluster, relaciones deinteres entre los datos de entrenamiento

propiedad auto-organizativa: los patrones son agrupados enclusters en base a la similaridad independiente del ambienteexterno

aprendizaje supervisadoV redundancia en los datosExisten dos filosofıas de aprendizaje no supervisado

1 Aprendizaje competitivo: clustering o clasificacion2 Hebbian Learning: medida de familiaridad o proyectar los

datos en sus componentes principales

70 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Aprendizaje competitivo estandar

Usan la estrategia winner-take-all

Con una arquitectura de una capa las unidades compiten porganar un determinado patron, solo el ganador se gatilla

Consideremos una capa de p unidades totalmente conectadacon n terminales de entrada xj mediante pesos wij ≥ 0(conexiones excitatorias)

Cada unidad i recibe un valor de entrada ai:

ai =n

∑j=1

wijxj = wTi x

71 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Aprendizaje competitivo estandar (2)

La unidad neuronal con valor de entrada mas alto ai

(ganador) sera el unico en gatillarse (salida oi = 1){oi = 1 si wT

i x = maxk=1,...,p (wTk x)

oi = 0 e.t.o.c.(17)

Si todos los vectores son normalizados (||wi||) = 1 laestrategia puede expresarse como{

oi = 1 si ||wi− x||= mink=1,...,p ||wk− x||oi = 0 e.t.o.c.

(18)

72 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


Cada neurona representa un grupo de patrones de entradapor medio del vector wi

La tarea del algoritmo de aprendizaje es escoger los vectoresde peso que representen los datos de cada cluster

Comencemos con pesos aleatorios wij

En cada iteracion u el algoritmo de aprendizaje se presentael patron xq desde el conjunto de entrenamiento

La unidad ganadora iq es encontrada usando (17) o (18) pormedio del vector de pesos wq

i

73 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


La unidad iq representara en el futuro a los patrones similares

En el ciclo u+1 aqi debe producir el valor mas alto para la

unidad iq:

(wqi (u))Txq ≤ (wq

i (u+1))Txq = (wqi (u))T +(∆wq

i (u))Txq

(19)

Para lograrlo solo la unidad ganadora iq se premia con uncambio en el vector de pesos ∆wq

i proporcional a la entradaxq

Esto mueve el vector de pesos wqi en la direccion de xq V iq

ganara en el futuro al patron xq

74 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


Para evitar un crecimiento indiscriminado de wi durante elentrenamiento se agrega un termino inercial proporcional alvalor actual del vector de pesos wq

i quedando la regla deactualizacion{

∆wqi (u) = η(xq−wq

i (u)) si (wqi (u))T xq = maxk=1,...,p ((wq

k(u))T xq)∆wq

i (u) = 0 si kq 6= iq(20)

La ecuacion anterior cumple la condicion (19) asumiendopesos normalizados porque

(wqi (u))T xq = η((xq)T xq− (wq

i (u))T xq) = η(cos(0)− cos(wqi (u),xq))≥ 0

La regla propuesta (7) corresponde a la actualizacion depesos en la direccion negativa del gradiente de la funcionf (x) = ||x−wi|| respecto de wi

75 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


El resultado del aprendizaje competitivo se representageometricamente por una esfera con radio 1 donde yacen losvectores de peso normalizados

Al final del entrenamiento los vectores wk se encuentrandentro del cluster al que representan

η entre 0.1 y 0.7

76 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


Un modelo biologicamente mas inspirado incluye inhibicionlateral (negativo) y auto-excitacion (positivo)

Esto hace que se pierda la facil implementacion de laestrategia

Desventaja: se pierde la distribucion V solo la neuronaganadora se encarga del ejemplo V poco robusto

Si una unidad falla, el cluster entero se pierde V variasneuronas por cluster (¿Cuantas?, evitar unidades muertas,no hay arquitectura optima)

Soft-competitive learning

77 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Learning Vector Quantization (LVQ)

Es una extension supervisada de la estrategia winner-take-all

Se supone la data etiquetada, cada xq esta asociado a un dq

y el numero de clases de salida es conocido

Es util considerar varios prototipos por clase V numero deneuronas de salida mayor al numero de clases de salida

Tenemos una red neuronal con unidades con vectores depeso unitarios y funcion de activacion (18)

Apliquemos el vector de entrada xq a la red en la u-esimaiteracion y encontremos la unidad ganadora iq con vector depesos wq

i

78 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Learning Vector Quantization (LVQ) (2)

La actualizacion de pesos ocurre en la direccion de xq si laclase de la unidad iq es correcta, sino la actualizacion toma ladireccion opuesta.Los pesos de las neuronas no ganadoras no se actualizan

∆wqi = +η(u)(xq−wq

i ) si la clase de la unidad iqes correcta

∆wqi =−η(u)(xq−wq

i ) si la clase de la unidad iqes incorrecta

∆wqk = 0 si la clase de la unidad k no es la ganadora

η(u) es la tasa de aprendizaje usualmente decreciente

Se puede usar ηi(u) por neurona (η ∈ [0,1])

79 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


Al finalizar el entrenamiento LVQ, el espacio de entrada sedividira en un Mosaico de Voronoi: fronteras de decision sonperpendiculares a la distancia entre dos prototipos vecinos

Mejora LVQ actualiza simultaneamente el peso de la neuronaganadora wq

i y el vector prototipo wqj mas cercano al patron

de entrada xq V Cada prototipo wk se aproxima de algunaforma a la distribucion del cluster de entrada k

80 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


Se distinguen dos casos

En la primera, la clase de xq es diferente de la clase de launidad ganadora iq asociado al prototipo wq

i y es la mismaque la clase de la segunda mas alta unidad jq asociada alprototipo wq

j

Ademas xq esta cercano a la frontera de decision entre wqi y

wqj

xq se encuentra en una ventana de ancho relativo s

min

(d(xq,wq

i )d(xq,wq

j ),d(xq,wq

j )

d(xq,wqi )

)>

1− s1+ s

81 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


Donde d(xq,wqk) es la distancia euclidiana entre xq y wq

k . Serecomienda s ∈ [0.2,0.3]La regla de actualizacion en el paso u es

∆wqi (u) =−η(u)(xq−wq

i (u)) para la unidad ganadora

∆wqi (u) = +η(u)(xq−wq

i (u)) para el vecino mas cercano

∆wqk(u) = 0 si k 6= i, j

Si wqi ,w

qj y xq estan en la misma clase la regla de

optimizacion es{∆wq

i (u) = +εη(u)(xq−wqh(u)) con h = i, j

∆wqk(u) = 0 si k 6= i, j

Con ε > 0

82 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Mapas auto-organizados de Kohonen (SOM)

El algoritmo de aprendizaje es competitivo, pero usa unaregla de actualizacion que genera una capa de salida dondela topologıa de los patrones se preserva

Si los patrones xr y xs son cercanos en el espacio de entrada(similaridad) las neuronas que los incluyen tambien soncercanos en el mapa topologico

Una red que realiza ese mapeo es llamada mapeocaracterıstico: visualmente describe las relaciones entre losdatos que agrupa cada cluster, pero tambien entre cluster enel espacio de entrada

83 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Mapas auto-organizados de Kohonen (SOM)(2)

Un mapa de Kohonen es un arreglo bi-dimensional deneuronas completamente conectadas con el vector deentrada sin conexiones laterales sobre una grilla cuadrada ohexagonal

Para preservar la topologıa la regla de actualizacion involucraa la neurona ganadora y a sus vecinos

84 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


Se cambian las reglas LVQ por

∆wqk(u) =−η(u)Λ(k, iq,u)(xq−wq

k(u))

Λ(k, iq,u) es la funcion de vecindario(maximo en k = iq ydecrece con la distancia geometrica)

Neuronas lejanas tienen poco efecto

la recompensa consiste en mover wqi en la direccion de xq

El algoritmo comienza usualmente (u = 0) con altos valoresde Λ(k, iq,u) y η(u)

85 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo


η(u)≈ u−α,0 < α < 1

La funcion de vecindario mas popular es

Λ(k, iq,u) = e−||rk−rq

i ||2

2σ(u)2

σ(u) es monotona decreciente respecto de u

No existen criterios de optimalidad, solo cuantizacion Q, ydistorsion D

Q =1m

m

∑q=1||xq−wq

i ||2 (21)

D =1m

m

∑q=1

Λ(k, iq,u)||xq−wqi ||

2 (22)

86 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Temario


2 Fundamentos

3 Perceptron


5 BackPropagation




9 PCA y ANN

10 Series de tiempo

87 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Hebbian Learning

Se deriva de la Teorıa de Hebb

La regla se basa en que la observacion mas frecuente quepresenta un patron de entrada mas fuerte es la respuesta

o = ∑nk=1 wkxk = wTx genera una actualizacion

∆wqk = ηoqxq

k

Una version modificada usa

∆wqk = ηoq(xq

k−oqwqk)

Se restringe ||w||= 1 para prevenir el crecimientodescontrolado

88 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Hebbian Learning (2)

Considerando datos con media cero, la direccion de maximavarianza esta dada por el vector propio asociados con elvalor propio mas grande de la matriz de covarianzaAl final del proceso la neurona proyecta x en la direccion delmaximo valor propio de la matriz de covarianza V produce laprimera componente principalPara hacerlo se usa la regla Sanger

∆wqk = ηoq

(xq

k−i

∑j=1

oqwqk

)

89 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Esquema Autoasociador

Se basa en Back-Propagation, n = pH unidades escondidas (H < n)Se busca implementar el mapeo dq = xq V modo asociativo

Se utiliza para problemas de dos clases

Se entrena con ejemplos de una clase, y se calcula ladistancia entre el vector de entrada y de salida

90 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Esquema Autoasociador (2)

Una corta distancia entre un patron de entrada y salida⇒pertenece a la clase

Se puede usar para reducir dimensionalidad: la parteentrada-escondida representa la reduccion f : Rn→ RH . Laparte escondida-salida representa la funcion inversag≈ f−1 : RH → Rn

Usando funcion lineal y suma de errores V PCA noordenado (vectores no normalizados)

91 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

PCA no-lineal

Para implementar NLPCA se necesitan mas capas (con unasolo pueden hacerse mapeos lineales)

Capas 1 y 3 sigmoidal, capa 4 lineal

Las primeras dos capas definen el mapeo al espacioH-dimensional

92 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

PCA no-lineal (2)

Capas 3 y 4 definen la inversa

Computacionalmente caro, puede reducir la dimensionalidaddonde PCA no puede

Puede caer en optimos locales

93 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Temario


2 Fundamentos

3 Perceptron


5 BackPropagation




9 PCA y ANN

10 Series de tiempo

94 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Series de Tiempo

Hemos visto el paradigma ANN estatico V o(t +1) secalcula en base a x(t)Problemas dinamicos

Reconocimiento de secuencias, asociacion temporal detareas

Redes neuronales recurrentes presentan conexiones auto,laterales y hacia atras lo que permite realizar tareasdinamicas

95 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Aprendizaje dinamico

El aprendizaje dinamico puede ser definido como una funcionque asocia las secuencias de entrada {Sx} al espacio desalida {So}Basados en el conjunto entrenamientoT = {(Sq

x ,Sqd)},q = 1, . . . ,m

Secuencia de entrada Sqx = {x(t)q, . . . ,x(t− (F−1))q}

Secuencia de salida Sqd = {d(t)q, . . . ,d(t− (F−1))q}

96 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Time Delay Neural Networks (TDNN)

Una posibilidad para reconocer secuencias es alimentar auna ANN estatica

[x(t),x(t−1), . . . ,x(t−F +1)]T es presentado como unpatron de entrada para la MLP

No se puede variar el largo F de las secuencias

97 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Back-Propagation Through Time

Transformar una RNN en una FFNN y entrenarla conBack-Propagation

98 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Aprendizaje recurrente

Para cada entrada x(t− τ) de la secuenciaSq

x = {xq(t),xq(t−1), . . . ,xq(t−F +1)} el valor de cadaunidad de salida se calcula:

oi(t− τ) = f (ai(t− τ−1)) = f

(∑

jwijoj(t− τ−1)+χi(t− τ−1)

)(23)

Los pesos wij incluyen auto-conexiones i = j

χi(t− τ) representa la parte de la entrada ai(t− τ) que vienedirectamente del vector de entrada x(t− τ)o(t) evoluciona en el tiempo de acuerdo a la secuencia deentrada Sx

99 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Aprendizaje recurrente en tiempo real

Supongamos una RNN con n valores de entrada, p unidadesde salida, y es alimentada con secuencias Sq

x ,q = 1, . . . ,mcon largo F(q)La meta es asociar entradas Sq

x y secuencias de salida Sqd

La funcion de error

Eq =0

∑τ=F(q)−1

Eq(t− τ) =0

∑τ=F(q)−1

(12

p

∑i=1

(eqi (t− τ))2

)

eqi (t− τ) =

{oq

i (t− τ)−dqi (t− τ) si i ∈ U(τ,q)

0 e.t.o.c.

Donde U(τ,q) representa el conjunto de unidades de salidacon un target dq

i (t− τ)

100 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Aprendizaje recurrente en tiempo real (2)

Minimizando Eq usando el gradiente

∆wqij =−η

∂Eq

∂wij=

0

∑τ=F(q)−1

−η∂Eq(t− τ)

∂wij=

0

∑τ=F(q)−1

∆wqij(t− τ)

(24)Considerando (23) se pueden calcular las derivadas de (24):

∂ok(t)∂wij

= f ′k(ak(t))

[δkioj(t)+∑

hwkh

∂oh(t)∂wij

]

δki =

{1 si i = k0 si i 6= k

El ındice h representa las neuronas que alimentan a lak-esima neurona.fk(ak(t)) es la funcion de activacion de la k-esima neurona

101 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Aprendizaje recurrente en tiempo real (3)

En general ∂ok(t)∂wij

depende del tiempo t, pero podemos asumirque la red tiene una condicion estable en el tiempot− (F(q)−1), es decir, ∂ok(t−F(q)+1)

∂wij= 0

De esta manera se puede calcular iterativamente ∆wqij(t− τ)

102 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Tecnica Forward-Backward

Extiende la tecnica anterior a analisis temporal de secuencias

la ecuacion que describe la evolucion de la neurona es

γi∂oi

∂t=−oi + f

(∑

jwijoj

)+χi (25)

Donde γ es la relajacion de escala de la i-esima neurona

La funcion de error (5) es integrada a traves de la secuenciade largo F(q) para realizar el analisis en tiempo continuo

Eq =12

∫ t

t−F(q)

p

∑k=1

(ok(t)−dk(t))2dt

103 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Tecnica Forward-Backward (2)

Usando el gradiente descendente

∆wqij =−η

∂Eq

∂wij(26)

∂Eq

∂wij=

1γi

∫ t

t−F(q)Yif ′

(∑

jwijoj

)ojdτ (27)

Yi puede obtenerse como el punto fijo de

γi∂Yi

∂t=− 1

γiYi +

p

∑k=1

1γk

f ′(

∑j

wkjoj

)wkiYk + ei(t− τ) (28)

Donde ei(t− τ) = di(t− τ)−oi(t− τ) y Yi(t) = 0 para todaslas unidades de salida i

104 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Tecnica Forward-Backward (3)

Sobre cada ejemplo de entrenamiento (Sqx ,S

qd):

1 La ecuacion (25) es integrada hacia adelante entre t−F(q) yt obteniendose funciones de salida oi(t)

2 Las funciones de error ei(t− τ) se calculan ∀τ = 0, . . . ,F(q)para todas las neuronas i

3 La ecuacion (28) es integrada hacia atras entre t y t−F(q)para obtener Yi(t) para cada neurona

4 Las derivadas parciales ∂Eq

∂wijse calculan de acuerdo a (27)

5 Los pesos son actualizados como en (26)

Esta tecnica es mas barata computacionalmente que RTRLpero no puede usarse en tiempo real

105 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Bibliografıa

T. Hastie, R. Tibshirani, and J. H. Friedman. The Elements ofStatistical Learning. Springer, August 2001.

Christopher M. Bishop. Pattern Recognition and MachineLearning (Information Science and Statistics).Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006.

Christopher M. Bishop. Neural Networks for PatternRecognition. Oxford University Press, 2005

C. Bishop. Neural Networks for Pattern Recognition, 1995.

Raul Rojas. Neural Networks - A Systematic Introduction.Springer-Verlag, Berlin, New-York, 1996.http://page.mi.fu-berlin.de/rojas/neural/index.html.html

106 / 107

“ANN”

Carlos ValleVidal

PPR

Fundamentos

Perceptron

MFNN

BackPropagation


RBF


PCA y ANN

Series detiempo

Consultas y Comentarios

107 / 107

“ANN” Vidal PPR “Redes Neuronales Artiﬁciales”cvalle/INF-384/ANN.pdf · Series de tiempo...

Documents

Transcript of “ANN” Vidal PPR “Redes Neuronales Artiﬁciales”cvalle/INF-384/ANN.pdf · Series de tiempo...