Post on 24-May-2020
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
“Redes Neuronales Artificiales”
Carlos Valle Vidalcvalle@inf.utfsm.cl
Departamento de Informatica -Universidad Tecnica Federico Santa Marıa
Santiago, Abril 2009
1 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Temario
1 Projection Pursuit Regression
2 Fundamentos
3 Perceptron
4 Redes neuronales Multicapas
5 BackPropagation
6 Aprendizaje y Generalizacion
7 Redes con funciones de radio basal
8 Aprendizaje Competitivo
9 PCA y ANN
10 Series de tiempo
2 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Temario
1 Projection Pursuit Regression
2 Fundamentos
3 Perceptron
4 Redes neuronales Multicapas
5 BackPropagation
6 Aprendizaje y Generalizacion
7 Redes con funciones de radio basal
8 Aprendizaje Competitivo
9 PCA y ANN
10 Series de tiempo
3 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Projection Pursuit Regression
La idea central es extraer combinaciones lineales de lasentradas, utilizandolas como entradas y se modela la salida(target) como una funcion no lineal de esas entradas.
En el problema de aprendizaje supervisado, asumimos quetenemos un vector de entrada X con p componentes y unasalida Y .
Sea wm,m = 1,2, . . . ,M vectores de tamano p querepresentan los parametros desconocidos del modelo.
4 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Projection Pursuit Regression (2)
El modelo PPR tiene la forma
f (X) =M
∑m=1
gm(wTmX) (1)
Este es un modelo aditivo pero en las caracterısticasderivadas Vm = wT
mX.
Las funciones gm no se especifican y se estiman junto con lasdirecciones wm usando metodos de suavizamiento flexible.
5 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Ridge Functions
En la figura de la izquierda w = (1/sqrt2)(1,1)T . A laderecha w = (1,0)
6 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
PPR
Este modelo es muy general ya que existen formas deescribir funciones no lineales como combinacion defunciones lineales. Por ejemplo, X1 ·X2 se puede escribircomo [(X1 +X2)2− (X1−X2)2]/4.
Si M es arbitrariamente largo, para una eleccion de gm
apropiada el modelo PPR puede aproximar cualquier funcioncontinua en Rp arbitrariamente bien. Esta clase de modelosse conocen como aproximadores universales.
7 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
PPR (2)
El problema de este metodo es la falta de interpretacion delmodelo.
Para ajustar un modelo PPR, dado un conjunto deentrenamiento (xi,yi), i = 1,2, . . . ,N, debemos minimizar lafuncion de error:
N
∑i=1
[yi−
M
∑m=1
gm(wTmxi)
]2
(2)
Para resolverlo necesitamos estimar gm y wm
simultaneamente.
Consideremos M = 1, dado el vector w formamos lasvariables vi = wTxi. Por lo tanto tenemos un sistema dondepodemos aplicar smoothing splines para estimar la funcion g.
8 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
PPR (3)
Dado g queremos estimar w tal que minimice el error.Utilizando el metodo Gauss-Newton:
g(wTxi)≈ g(wToldxi)+g′(wT
oldxi)(w−wold)Txi (3)
Por lo tanto
N
∑i=1
[yi−g(wTxi)]2 ≈
N
∑i=1
g′(wToldxi)2
[(wT
oldxi +yi−g′(wT
oldxi)g′(wT
oldxi)
)−wTxi
]2
(4)
9 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
PPR (4)
Para minimizar el termino de la derecha aplicamos regresion
cuadratica sobre xi con target wToldxi +
yi−g′(wToldxi)
g′(wToldxi)
y pesos
g′(wToldxi)2
De esta manera se calcula el nuevo valor de w.
Los dos pasos descritos anteriormente se iteran hastaobtener convergencia.
Su demanda computacional es muy alta, por lo que no esmuy utilizado, pero representa una fuente de inspiracion paralo que sigue.
10 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Temario
1 Projection Pursuit Regression
2 Fundamentos
3 Perceptron
4 Redes neuronales Multicapas
5 BackPropagation
6 Aprendizaje y Generalizacion
7 Redes con funciones de radio basal
8 Aprendizaje Competitivo
9 PCA y ANN
10 Series de tiempo
11 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Fundamentos
Engloba actualmente una gran conjunto de modelos ymetodos de aprendizaje. Su nombre viene del modelohumano para el cerebro, donde cada unidad representa unaneurona y las conecciones representan sinapsis.
La primera definicion de ANN tenıa senales de entradax1(t),x2(t), . . . ,xn(t) en el tiempo t.
La entrada a una neurona a(t) es evaluada comow1 · x1(t), . . . ,wn · xn(t) y la salida σ(a) llamada funcion deactivacion donde la neurona se activa si pasa el umbral w0
σ(a) =
{1 si a≥ w0
0 si a < w0
12 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Fundamentos (2)
La salida es
o(t +1) = σ
(n
∑i=1
wixi(t)
)
13 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Funciones de activacion
Otras funciones de activacion σ(a) ∈ [0,1]
σ(a) = a
σ(a) =1
1+ e−ha
σ(a) = tanh(a) =ea− e−a
ea + e−a
Algunos paradigmas de ANN utilizan unidades estocasticas,donde la salida se define probabilısticamente
P(o(t +a) =±1) = σ(a) =1
1+ e∓2βa(t)
14 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Funciones de activacion (2)
La tasa de activacion de esta funcion depende de ||αm||, sies muy pequena operara en la parte lineal de la funcion deactivacion.
15 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Estrategias de Aprendizaje
Si se conocen los valores de salida del problema Vaprendizaje supervisado. La ANN es retroalimentada paracorregir los posibles errores.
Cuando los valores de salida son desconocidos Vaprendizaje no supervisado. No hay retroalimentacion.
16 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Temario
1 Projection Pursuit Regression
2 Fundamentos
3 Perceptron
4 Redes neuronales Multicapas
5 BackPropagation
6 Aprendizaje y Generalizacion
7 Redes con funciones de radio basal
8 Aprendizaje Competitivo
9 PCA y ANN
10 Series de tiempo
17 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Perceptron
Consiste en una capa de p unidades conectadas (salidas)con n entradas
18 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Perceptron (2)
Cada salida oi es una funcion explıcita de la entradax = [x1, . . . ,xn]T y se calcula
oi = σ(ai) = σ
(n
∑k=0
wikxk
), i = 1, . . . ,p
xk ∈ [0,1],k = 1, . . . ,n y oi ∈ [0,1], i = 1, . . . ,p
x0 = 1, y wi0 es el peso del umbral
19 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Regla Delta
Sea T el conjunto de entrenamiento de m ejemplos.
Sea xq el vector de entrada y dq el targetT = {(xq,dq)|q=1,...,m}Queremos ajustar los pesos de la red, de manera que lasalida oq del vector xq se parezca a dq (supervisado)
El conjunto de pesos W = {wik} sera el que produzca enpromedio el menor error
Definamos una medida de error E(W) respecto de la matrizde pesos de la red.
Si W es derivable respecto de wik podemos aplicaralgoritmos de optimizacion del tipo gradiente V Gradientedescendente
20 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Regla Delta (2)
La funcion de error mas usual es
E(W) =12
m
∑q=1
p
∑i=1
(oqi −dq
i )2 =
m
∑q=1
Eq(W) (5)
Eq(W) =12
p
∑i=1
(oqi −dq
i )2 (6)
Comenzando con un W inicial, el gradiente descendentesugiere moverse en la direccion opuesta al gradiente
wik(u+1) = wik(u)+∆wik(u)
∆wik(u) = −η∂E(u)∂wik
=−η
m
∑i=1
∂Eq(u)∂wik
=m
∑q=1
∆wqik(u)
∆wqik(u) = −η
∂Eq(u)∂wik
21 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Regla Delta (3)
η es la tasa de aprendizaje, u indica un ciclo de esteprocedimiento sobre todo el training set T V epoca
Estrategias: batch e incremental
Si la funcion de activacion σ(a) es diferenciable, la derivadaparcial del error para el ejemplo q es
∂Eq
∂wik=
∂12 ∑
pi=1 (oq
i −dqi )
2
∂wik(7)
= (oqi −dq
i )∂σ(∑n
k=0 wikxqk)
∂wik(8)
= (oqi −dq
i )σ′(aq
i )xqk = δ
qi xq
k (9)
22 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Regla Delta (4)
Con δqi = (oq
i −dqi )σ′(aq
i ),aqi = ∑
nk=0 wikxq
k
Entonces ∆wqik =−ηδ
qi xq
k
La cantidad δqi que se usa para calcular ∆
qik solo depende de
los parametros de la red V facilidad de implementacion
Si la funcion es la sigmoidal conh = 1⇒ σ′(a) = σ(a)(1−σ(a)) V calcular δ
qi es simple
23 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Regla Delta (5)
Usando batch se puede probar que si la solucionW∗,{W∗ : E(W∗) = minW E(W)} existe y si η es pequeno,entonces la regla converge a W∗
Sin embargo el algoritmo es sensible a pequenas variacionesde η
24 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Temario
1 Projection Pursuit Regression
2 Fundamentos
3 Perceptron
4 Redes neuronales Multicapas
5 BackPropagation
6 Aprendizaje y Generalizacion
7 Redes con funciones de radio basal
8 Aprendizaje Competitivo
9 PCA y ANN
10 Series de tiempo
25 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Perceptron Multicapa
Utilicemos la filosofıa de PPR para transformar el vector deentrada introduciendo mas capas a la red
Son llamadas MLP o MFNN
Cada MLP tiene una capa de entrada un numero de capasescondidas y una capa de salida.
26 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Perceptron Multicapa (2)
Si la funcion de activacion es la sigmoidal se puede probarque se puede aproximar cualquier frontera de decisionusando un perceptron de 2 capas con un numero suficientede neuronas
Eso se llama propiedad universal y significa que un MLPprovee un discriminante universal con funciones no lineales
Supongamos que tenemos un MLP con L capasl = 0,1, . . . ,L, l = 0 es la capa de entrada, l = L es la capade salida.
27 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Perceptron Multicapa (3)
Cada capa l tiene n(l) neuronas. Cada neurona valor desalida oi de la unidad i de la capa l puede calcularse
oi = σi(ai) = σi
(n(l−1)
∑k=0
wikxk
), i = 1, . . . ,n(l) (10)
Donde las entradas xk de la unidad i corresponde a ok, lassalidas de la capa l−1
En particular para una red feedforward de 2 capas (L = 2)con una salida oi (p=1) con funcion de activacion lineal
28 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Perceptron Multicapa (4)
La red puede ser escrita como:
oi =n(1)
∑k=0
wikok,oi ∈ c. de salida,ok ∈ c. escondida
ok = σk
(n(0)
∑j=0
vkjxj
),xj ∈ vector de entrada
oi =n(1)
∑k=0
wikσk
(n(0)
∑j=0
vkjxj
)=
n(1)
∑k=0
wikσk(vTk x+ vk0)+wi0
29 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Perceptron Multicapa (5)
Donde vTk es el vector de pesos desde la capa de entrada a la
unidad k de la capa l = 1
wik es el peso de la conexion entre la unidad k de la capaoculta l = 1 y la salida i en la capa de salida l = 2
MLP puede verse como un caso especial de regresion nolineal
Para entrenar una MLP no se puede usar regla delta porquelos target de las capas ocultas son desconocidos.
30 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Temario
1 Projection Pursuit Regression
2 Fundamentos
3 Perceptron
4 Redes neuronales Multicapas
5 BackPropagation
6 Aprendizaje y Generalizacion
7 Redes con funciones de radio basal
8 Aprendizaje Competitivo
9 PCA y ANN
10 Series de tiempo
31 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Algoritmo de Retropropagacion
Este algoritmo consiste en dos pasos1 Una propagacion hacia adelante desde la entrada a la salida
de la red2 Una propagacion hacia atras del vector de error desde la
salida hacia la capa de entrada
Consideremos la suma de errores parciales (5), y apliquemosla tecnica incremental al conjunto de entrenamiento T de mejemplos T = {(xq,dq)|q=1,...,m}
32 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Algoritmo de Retropropagacion (2)
El primer paso es evaluar las salidas de la red oq1, . . . ,o
qp,
para obtener Eq(W) sobre la capa de salida L (propagacionhacia adelante)
Si Eq(W) 6= 0, necesitamos la actualizacion ∆Wq
Aplicando gradiente descendente a cada peso wik queconecta la unidad k de la capa l−1 con la unidad i en lacapa l
∆wqik =−η
∂Eq
∂wik
33 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Algoritmo de Retropropagacion (3)
34 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Algoritmo de Retropropagacion (4)
Usando la regla de la cadena la derivada parcial se expresacomo
∂Eq
∂wik=
∂Eq
∂aqi
∂aqi
∂wik
De la ecuacion (10) obtenemos:
∂aqi
∂wik= oq
k
Usando
δqi =
∂Eq
∂aqi
Se deriva∂Eq
∂wik= δ
qi oq
k
∆wqik =−ηδ
qi oq
k , i ∈ capa l,k ∈ capa l−1 (11)
35 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Algoritmo de Retropropagacion (5)
Notemos que la ecuacion anterior tiene la misma forma quela regla delta (7) para actualizar los pesos de un perceptronmulticapa
Para las neuronas de salida, es decir, i ∈ capa L la regladelta es
δqi =
∂Eq
∂aqi
= σ′(aq
i )(oqi −dq
i ), i ∈ c.salida L (12)
El problema es como evaluar ∂Eq
∂aqi
para las neuronas de la
capa escondida, es decir, para i ∈ capa 0 < l < L
36 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Algoritmo de Retropropagacion (6)
Usando la regla de la cadena obtenemos la contribucion dela capa l+1 de la cantidad δ
qi
δqi =
∂Eq
∂aqi
=n(l+1)
∑j=1
∂Eq
∂aqj
∂aqj
∂aqi
n(l+a) es el numero de unidades j de la capa l+1.El termino ∂Eq
∂aqj
es la cantidad δqj definidos para las unidades j
en la capa l+1
Considerando (10) tenemos∂aq
j
∂aqi= σ′(aq
i )wji.
Entonces para las unidades escondidas i:
δqi = σ
′(aqi )
n(l+1)
∑j=1
wjiδqj , i ∈ capa l < L, j ∈ capa l+1 (13)
37 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Algoritmo de Retropropagacion (7)
Comenzando con el calculo de δ en la capa de salida L (12)
Es posible calcular los δ para las unidades escondidas de lascapas intermedias l < L usando δ de la capa l+1 (13)
Finalmente se actualizan todos los pesos con ∆wqik en la
ecuacion (11), y comienza todo el proceso de nuevo con elsiguiente xq
Se puede usar un numero de epocas como criterio determino o un valor umbral para el error de entrenamiento
El costo computacional es aproximadamente O(Nw), dondeNw es el numero de pesos de la red
38 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Algoritmo de Retropropagacion (8)
Algoritmo 1 Retropropagacion1: Inicializar los pesos wik con valores aleatorios2: Aplicar en patron de entrenamiento xq a la capa de entrada3: Propagar xq hacia delante desde el terminal de entrada a la capa de salida de
acuerdo a (10)4: Calcular error Eq(W) sobre la capa de salida de acuerdo a (5)5: Computar δs de la capa de salida como en la ecuacion (12)6: Computar δs de las capas precedentes propagando hacia atras (13)7: Usar ∆wq
ik =−ηδqi oq
k , donde i ∈ capa l y k ∈ capa l−1∀wik de la red8: q→ q+1 ir a paso 2
39 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Algoritmo de Retropropagacion (9)
Se pueden aplicar ambos metodos batch e incremental
El metodo incremental suele ser mejor en la mayorıa de loscasos, en especial para conjuntos de entrenamientoregulares
Se puede extender facilmente a redes parcialmenteconectadas.
Como se observa, cada neurona recibe informacion deaquellas con las que se conecta, por lo que se puedeimplementar en una arquitectura paralela.
η→ 0
40 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Ajustando Funciones
41 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Temario
1 Projection Pursuit Regression
2 Fundamentos
3 Perceptron
4 Redes neuronales Multicapas
5 BackPropagation
6 Aprendizaje y Generalizacion
7 Redes con funciones de radio basal
8 Aprendizaje Competitivo
9 PCA y ANN
10 Series de tiempo
42 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Mınimos locales
Back-propagation converge en los puntos W∗ : ∇E(W∗) = 0
Si la red tiene muchas capas pueden existir muchos mınimoslocales, elegir W inicial es clave
Al usar sigmoidal deben ser pequenos para que trabaje en elsector ±1
Usar una distribucion inicial de pesos N(0,σ2), dondeσ = n(l−1)−1/2
Ejemplos de entrenamiento en orden aleatorio
Newton, cuasi-Newton, Levenberg-Marquardt
Utilizar Bagging.
43 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Funciones de Error
Una alternativa es promediar el MSE, de esta manera el errorno crece dependiendo del tamano del conjunto deentrenamiento
RMS(W) =1m
m
∑q=1
p
∑i=1
(oqi −dq
i )2
Si queremos aprender la distribucion condicional p(d|x)La entropıa relativa fuerza a la red a aprender la hipotesisrepresentada por la unidad oi con una probabilidad
(1/2)(1+oqi ) =
[12(1+dq
i ) ln 1+dqi
1+oqi+ 1
2(1−dqi ) ln 1−dq
i1−oq
i
]
E(W) =m
∑q=1
p
∑i=1
{γ(oq
i −dqi )
2 si sign(dqi ) = sign(oq
i )(oq
i −dqi )
2 si sign(dqi ) =−sign(oq
i )
}44 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Momentum
Ya discutimos sobre la importancia de η en la calidad de lasolucion final
Se propone usar en cada paso u de entrenamiento
∆wik(u) =−η∂E(u)∂wik
+α∆wik(u−1)
α > 0 llamado momentum, se elige entre 0.1 y 0.8
Darle inercia al peso wik (evitar cambios drasticos)
η dinamico
∆η(u) =
+aη(u−1) si∆E(W,z) < 0,z = u−1, . . .u−U−bη(u−1) si∆E(W,z) > 0,z = u−10 e.t.o.c
Otros metodos: delta-delta, delta-bar-delta y Quickprop45 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Sobre entrenamiento
En general la red neuronal con muchos pesos tiende aminimizar muy bien la funcion de perdida R(θ) V bajacapacidad de generalizacion.La regla de detencion temprana, se detiene el entrenamientocuando se alcanza una cota para el error R(θ).Tambien se puede ocupar un conjunto de validacion, ydetener el entrenamiento cuando el error de validacionaumenta.Entrenamiento con ruido
46 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Sobreentrenamiento (2)
47 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Decaimiento de pesos
Una tecnica mas explıcita es decaimiento de pesos el queconsiste en definir una nueva funcion de errorR1(θ) = R(θ)+λJ(θ) donde
J(θ) = ∑ik
w2ik (14)
donde λ es un nuevo parametro a optimizar, si el valoraumenta se fuerza a que los pesos decrezcan.
Otra forma de penalizar
J(θ) = ∑i,k
w2ik
1+w2ik
(15)
48 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Decaimiento de pesos (2)
49 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Escalando las Entradas
el valor de xi determina los rango de los pesos, por lo tanto,influye tambien en el desempeno de la funcion de activacion.
Una forma es estandarizar por la media y la desviacionestandar, para tener datos de media cero y varianza 1.
Otra forma es estandarizar de manera lineal.
Se dice que utilizando estandarizacion de datos, convieneelegir pesos aleatorios en el rango [−0.7,0.7].
50 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Tamano de la red
Un numero pequeno de parametros de la red contribuye a labuena generalizacion, junto con acortar el tiempo deentrenamiento
Algoritmos de Crecimiento
Algoritmos de Poda
51 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Discusion
Tanto Redes Neuronales como PPR trabajan con un modelono lineal de combinaciones lineales de caracterısticasderivadas de las entradas, esto les da una aproximacion muygeneral y los hace competitivos con los mejores metodos deaprendizaje en muchos problemas.
Son muy efectivos en problemas donde la interpretacion noes vital, por ejemplo, problemas con mucho ruido. Siqueremos describir la salida en terminos de las entradas,estos modelos no son muy eficientes.
Una red neuronal requiere de un numero de operaciones delorden de O(NpML), siendo N el numero de observaciones,M neuronas en la capa escondida y L epocas deentrenamiento.
52 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Temario
1 Projection Pursuit Regression
2 Fundamentos
3 Perceptron
4 Redes neuronales Multicapas
5 BackPropagation
6 Aprendizaje y Generalizacion
7 Redes con funciones de radio basal
8 Aprendizaje Competitivo
9 PCA y ANN
10 Series de tiempo
53 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Redes RBF
La idea subyacente es que cada unidad de la capa ocultarepresenta una region del espacio de entrada
Cada unidad de la capa oculta contiene un prototipo de uncluster en el espacio de entrada
Cuando llegue un nuevo patron a la red la unidad con elprototipo mas similar activara la decision dentro de la red
La funcion de activacion debe incluir el concepto de prototipoV similaridad
54 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Arquitectura RBF
Incluye una capa de unidades especiales V pre-procesan laentrada para alimentar un perceptron de una capaCada unidad k tiene de la capa escondida tiene un prototipoxk dada una region k del espacio de entradaΦk() es la funcion de activacion V expresa la similaridadentre el patron x y el prototipo xk mediante una metrica dedistanciaCon H unidades ocultas y un vector de salida p-dimensional
55 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Arquitectura RBF (2)
wik es la conexion entre la unidad oculta k y la unidad desalida i
wi0 es el valor de umbral de la unidad i
Φ0 = 1
Φk(x) = Φk(||x− xk||),k = 1, . . . ,H
oi(x) =H
∑k=1
wikΦk(k)+wi0, i = 1, . . . ,p
Capa de salida tiene funcion lineal o sigmoidal
Φ→ 0 si ||x|| → ∞
56 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Arquitectura RBF (3)
Lo usual es utilizar gaussianas
Φk(x) = e− ||x−µk ||
2
2σ2k
Puede ser generalizada
Φk(x) = e−12 (x−µk)T Σ
−1k (x−µk) (16)
Solo participan las neuronas ocultas que estan muy cercanasa xq V mayor eficiencia
Como obtener el mınimo H, σk es ajustable
57 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Arquitectura RBF (4)
En clasificacion Φk() puede interpretarse comop(cluster k|x), la probabilidad que el vector x pertenezca alcluster k
Los pesos wik a la capa de salida pueden ser interpretadoscomo p(Ci|cluster k), probabilidad de la clase Ci dado elcluster k
58 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Algoritmos de Entrenamiento
Supongamos aprendizaje supervisado y la funcion de errores la suma de cuadrado (5)
Modificar algoritmo de retro-propagacion
Esto tiene buenos resultados pero presenta desventajas
Caro computacionalmente y puede caer en mınimos locales,debe forzarse que σk sea pequeno para no perder lapropiedad local de la RBF
59 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Estrategia Hibrida
La estrategia de aprendizaje hıbrida divide el entrenamientoen dos etapas
1 xq se usa sin dq para determinar los parametros Φk: µk,σk sielegimos gaussianas
2 Los parametros de las funciones base permanecen fijos y secalculan los pesos son un algoritmo supervisado (ej:backpropagation)
60 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
K-means
k-means: Divide el espacio en un numero de cluster H
µk de la k-esima unidad oculta se obtiene mediante elpromedio de los Nk ejemplos del cluster SK
µk =1
NK∑
q∈Sk
xq
Esta solucion es el mınimo de la distancia euclideana J entrecada patron de entrenamiento m al centro µk
J =H
∑k=1
∑q∈Sk
||xq−µk||2
61 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
K-means (2)
Cada punto xq se reasigna al cluster Si (prototipo mascercano) µi : ||xq−µi||= minj ||xq−µj||Se vuelve a calcular el prototipo de Sk hasta que no seobserven cambios
σk se obtiene mediante heurısticas para lograr cierto traslapoentre las unidades y sus vecinas
Por ejemplo, elegir cada σk al σ promedio de la distanciaeuclidiana ente cada prototipo µi y su vecino mas cercano µj
σ =1H
H
∑i=1||µi−µj||,con µj : ||µi−µj||= min
k||µi−µj||
62 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
K-means (3)
Version adaptiva: Para cada patron xq el centro del clustermas cercano µq
k : minj ||xq−µqj || se mueve en una cantidad
∆µqk = η(xq−µq
k)
La capa escondida de un RBF puede verse como una mezclade H Gaussianas o(x) = ∑
Hj=1 αj(x)φj(x)
αj(x) y Φj(X) pueden encontrarse maximizando la funcionde verosimilitud
L =m
∏q=1
p(xq)
Para entrenar la capa de perceptrones, la alimentamos con lasalida de la RBF y aplicamos la regla delta V converge masrapido que Back-propagation a una MLP
63 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Algoritmo mınimos cuadrados ortogonales
Las unidades escondidas son introducidas secuencialmente
Cada unidad se centra sobre un patron de entrenamiento xq
y se mide el error de clasificacion
El patron xj con el menor error residual se retiene comoprototipo de la primera neurona RBF
La segunda unidad se elige considerando los m−1 ejemplosrestantes usando el mismo criterio anterior
Cuando parar.
Algoritmo caro computacionalmente
64 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Redes neuronales probabilısticas
En esta arquitectura la primera capa es de RBFs con (16), laque estima Φk(x) = p(cluster k|x)Considerando p clases de salida, hi clusters en el espacio deentrada representaran la clase de salida Ci, i = 1, . . . ,p
Por lo tanto la capa escondida tendra H = ∑pi=1 hi de
unidades RBF seran introducidas en la capa escondida
Cada una con funcion de activacionΦ(x) = pi
k(x) = p(cluster k|k∈Ci|x),k = 1, . . . ,hi, i = 1, . . . ,p
La segunda capa escondida tiene unidades lineales llamadasunidades de suma.
65 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Redes neuronales probabilısticas (2)
Cada unidad i representa la clase de salida Ci y recolecta lascontribuciones de las hi RBF unidades asociadas a la clasede salida Ci
oi =hi
∑k=1
wikpik(x) =
hi
∑k=1
p(Ci|cluster k)p(cluster k|x) = p(Ci|x)
66 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Redes neuronales probabilısticas (3)
La unidad i aproxima la probabilidad a posterior p(Ci|x) de laclase Ci dado el vector de entrada x ponderando con lospesos wik que representan la probabilidad a posteriorp(Ci|cluster k)Tambien se puede asignar el costo vjl a la decision deasignar el patron x a la clase l en lugar de la clase j, a la cualrealmente pertenece
La tercera capa de unidades de decision estiman el riesgo dela decision rj para la clase j
rj =p
∑l=1
wjlol(x) =p
∑l=1
vjlp(Cl)ol(x)
67 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Redes neuronales probabilısticas (4)
ol es la unidad de suma l
vjlp(Cl) representa el peso entre la unidad de suma l y launidad de riesgo j
El objetivo es elegir Cj con mınimo riesgo rj
68 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Temario
1 Projection Pursuit Regression
2 Fundamentos
3 Perceptron
4 Redes neuronales Multicapas
5 BackPropagation
6 Aprendizaje y Generalizacion
7 Redes con funciones de radio basal
8 Aprendizaje Competitivo
9 PCA y ANN
10 Series de tiempo
69 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Aprendizaje competitivo
El conjunto de entrenamiento T tiene ejemplos solamentecon patrones de entrada T = {xq}Se busca encontrar regularidades,cluster, relaciones deinteres entre los datos de entrenamiento
propiedad auto-organizativa: los patrones son agrupados enclusters en base a la similaridad independiente del ambienteexterno
aprendizaje supervisadoV redundancia en los datosExisten dos filosofıas de aprendizaje no supervisado
1 Aprendizaje competitivo: clustering o clasificacion2 Hebbian Learning: medida de familiaridad o proyectar los
datos en sus componentes principales
70 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Aprendizaje competitivo estandar
Usan la estrategia winner-take-all
Con una arquitectura de una capa las unidades compiten porganar un determinado patron, solo el ganador se gatilla
Consideremos una capa de p unidades totalmente conectadacon n terminales de entrada xj mediante pesos wij ≥ 0(conexiones excitatorias)
Cada unidad i recibe un valor de entrada ai:
ai =n
∑j=1
wijxj = wTi x
71 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Aprendizaje competitivo estandar (2)
La unidad neuronal con valor de entrada mas alto ai
(ganador) sera el unico en gatillarse (salida oi = 1){oi = 1 si wT
i x = maxk=1,...,p (wTk x)
oi = 0 e.t.o.c.(17)
Si todos los vectores son normalizados (||wi||) = 1 laestrategia puede expresarse como{
oi = 1 si ||wi− x||= mink=1,...,p ||wk− x||oi = 0 e.t.o.c.
(18)
72 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Aprendizaje competitivo estandar (3)
Cada neurona representa un grupo de patrones de entradapor medio del vector wi
La tarea del algoritmo de aprendizaje es escoger los vectoresde peso que representen los datos de cada cluster
Comencemos con pesos aleatorios wij
En cada iteracion u el algoritmo de aprendizaje se presentael patron xq desde el conjunto de entrenamiento
La unidad ganadora iq es encontrada usando (17) o (18) pormedio del vector de pesos wq
i
73 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Aprendizaje competitivo estandar (4)
La unidad iq representara en el futuro a los patrones similares
En el ciclo u+1 aqi debe producir el valor mas alto para la
unidad iq:
(wqi (u))Txq ≤ (wq
i (u+1))Txq = (wqi (u))T +(∆wq
i (u))Txq
(19)
Para lograrlo solo la unidad ganadora iq se premia con uncambio en el vector de pesos ∆wq
i proporcional a la entradaxq
Esto mueve el vector de pesos wqi en la direccion de xq V iq
ganara en el futuro al patron xq
74 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Aprendizaje competitivo estandar (5)
Para evitar un crecimiento indiscriminado de wi durante elentrenamiento se agrega un termino inercial proporcional alvalor actual del vector de pesos wq
i quedando la regla deactualizacion{
∆wqi (u) = η(xq−wq
i (u)) si (wqi (u))T xq = maxk=1,...,p ((wq
k(u))T xq)∆wq
i (u) = 0 si kq 6= iq(20)
La ecuacion anterior cumple la condicion (19) asumiendopesos normalizados porque
(wqi (u))T xq = η((xq)T xq− (wq
i (u))T xq) = η(cos(0)− cos(wqi (u),xq))≥ 0
La regla propuesta (7) corresponde a la actualizacion depesos en la direccion negativa del gradiente de la funcionf (x) = ||x−wi|| respecto de wi
75 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Aprendizaje competitivo estandar (6)
El resultado del aprendizaje competitivo se representageometricamente por una esfera con radio 1 donde yacen losvectores de peso normalizados
Al final del entrenamiento los vectores wk se encuentrandentro del cluster al que representan
η entre 0.1 y 0.7
76 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Aprendizaje competitivo estandar (7)
Un modelo biologicamente mas inspirado incluye inhibicionlateral (negativo) y auto-excitacion (positivo)
Esto hace que se pierda la facil implementacion de laestrategia
Desventaja: se pierde la distribucion V solo la neuronaganadora se encarga del ejemplo V poco robusto
Si una unidad falla, el cluster entero se pierde V variasneuronas por cluster (¿Cuantas?, evitar unidades muertas,no hay arquitectura optima)
Soft-competitive learning
77 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Learning Vector Quantization (LVQ)
Es una extension supervisada de la estrategia winner-take-all
Se supone la data etiquetada, cada xq esta asociado a un dq
y el numero de clases de salida es conocido
Es util considerar varios prototipos por clase V numero deneuronas de salida mayor al numero de clases de salida
Tenemos una red neuronal con unidades con vectores depeso unitarios y funcion de activacion (18)
Apliquemos el vector de entrada xq a la red en la u-esimaiteracion y encontremos la unidad ganadora iq con vector depesos wq
i
78 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Learning Vector Quantization (LVQ) (2)
La actualizacion de pesos ocurre en la direccion de xq si laclase de la unidad iq es correcta, sino la actualizacion toma ladireccion opuesta.Los pesos de las neuronas no ganadoras no se actualizan
∆wqi = +η(u)(xq−wq
i ) si la clase de la unidad iqes correcta
∆wqi =−η(u)(xq−wq
i ) si la clase de la unidad iqes incorrecta
∆wqk = 0 si la clase de la unidad k no es la ganadora
η(u) es la tasa de aprendizaje usualmente decreciente
Se puede usar ηi(u) por neurona (η ∈ [0,1])
79 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Learning Vector Quantization (LVQ) (3)
Al finalizar el entrenamiento LVQ, el espacio de entrada sedividira en un Mosaico de Voronoi: fronteras de decision sonperpendiculares a la distancia entre dos prototipos vecinos
Mejora LVQ actualiza simultaneamente el peso de la neuronaganadora wq
i y el vector prototipo wqj mas cercano al patron
de entrada xq V Cada prototipo wk se aproxima de algunaforma a la distribucion del cluster de entrada k
80 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Learning Vector Quantization (LVQ) (4)
Se distinguen dos casos
En la primera, la clase de xq es diferente de la clase de launidad ganadora iq asociado al prototipo wq
i y es la mismaque la clase de la segunda mas alta unidad jq asociada alprototipo wq
j
Ademas xq esta cercano a la frontera de decision entre wqi y
wqj
xq se encuentra en una ventana de ancho relativo s
min
(d(xq,wq
i )d(xq,wq
j ),d(xq,wq
j )
d(xq,wqi )
)>
1− s1+ s
81 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Learning Vector Quantization (LVQ) (5)
Donde d(xq,wqk) es la distancia euclidiana entre xq y wq
k . Serecomienda s ∈ [0.2,0.3]La regla de actualizacion en el paso u es
∆wqi (u) =−η(u)(xq−wq
i (u)) para la unidad ganadora
∆wqi (u) = +η(u)(xq−wq
i (u)) para el vecino mas cercano
∆wqk(u) = 0 si k 6= i, j
Si wqi ,w
qj y xq estan en la misma clase la regla de
optimizacion es{∆wq
i (u) = +εη(u)(xq−wqh(u)) con h = i, j
∆wqk(u) = 0 si k 6= i, j
Con ε > 0
82 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Mapas auto-organizados de Kohonen (SOM)
El algoritmo de aprendizaje es competitivo, pero usa unaregla de actualizacion que genera una capa de salida dondela topologıa de los patrones se preserva
Si los patrones xr y xs son cercanos en el espacio de entrada(similaridad) las neuronas que los incluyen tambien soncercanos en el mapa topologico
Una red que realiza ese mapeo es llamada mapeocaracterıstico: visualmente describe las relaciones entre losdatos que agrupa cada cluster, pero tambien entre cluster enel espacio de entrada
83 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Mapas auto-organizados de Kohonen (SOM)(2)
Un mapa de Kohonen es un arreglo bi-dimensional deneuronas completamente conectadas con el vector deentrada sin conexiones laterales sobre una grilla cuadrada ohexagonal
Para preservar la topologıa la regla de actualizacion involucraa la neurona ganadora y a sus vecinos
84 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Mapas auto-organizados de Kohonen (SOM)(3)
Se cambian las reglas LVQ por
∆wqk(u) =−η(u)Λ(k, iq,u)(xq−wq
k(u))
Λ(k, iq,u) es la funcion de vecindario(maximo en k = iq ydecrece con la distancia geometrica)
Neuronas lejanas tienen poco efecto
la recompensa consiste en mover wqi en la direccion de xq
El algoritmo comienza usualmente (u = 0) con altos valoresde Λ(k, iq,u) y η(u)
85 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Mapas auto-organizados de Kohonen (SOM)(4)
η(u)≈ u−α,0 < α < 1
La funcion de vecindario mas popular es
Λ(k, iq,u) = e−||rk−rq
i ||2
2σ(u)2
σ(u) es monotona decreciente respecto de u
No existen criterios de optimalidad, solo cuantizacion Q, ydistorsion D
Q =1m
m
∑q=1||xq−wq
i ||2 (21)
D =1m
m
∑q=1
Λ(k, iq,u)||xq−wqi ||
2 (22)
86 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Temario
1 Projection Pursuit Regression
2 Fundamentos
3 Perceptron
4 Redes neuronales Multicapas
5 BackPropagation
6 Aprendizaje y Generalizacion
7 Redes con funciones de radio basal
8 Aprendizaje Competitivo
9 PCA y ANN
10 Series de tiempo
87 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Hebbian Learning
Se deriva de la Teorıa de Hebb
La regla se basa en que la observacion mas frecuente quepresenta un patron de entrada mas fuerte es la respuesta
o = ∑nk=1 wkxk = wTx genera una actualizacion
∆wqk = ηoqxq
k
Una version modificada usa
∆wqk = ηoq(xq
k−oqwqk)
Se restringe ||w||= 1 para prevenir el crecimientodescontrolado
88 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Hebbian Learning (2)
Considerando datos con media cero, la direccion de maximavarianza esta dada por el vector propio asociados con elvalor propio mas grande de la matriz de covarianzaAl final del proceso la neurona proyecta x en la direccion delmaximo valor propio de la matriz de covarianza V produce laprimera componente principalPara hacerlo se usa la regla Sanger
∆wqk = ηoq
(xq
k−i
∑j=1
oqwqk
)
89 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Esquema Autoasociador
Se basa en Back-Propagation, n = pH unidades escondidas (H < n)Se busca implementar el mapeo dq = xq V modo asociativo
Se utiliza para problemas de dos clases
Se entrena con ejemplos de una clase, y se calcula ladistancia entre el vector de entrada y de salida
90 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Esquema Autoasociador (2)
Una corta distancia entre un patron de entrada y salida⇒pertenece a la clase
Se puede usar para reducir dimensionalidad: la parteentrada-escondida representa la reduccion f : Rn→ RH . Laparte escondida-salida representa la funcion inversag≈ f−1 : RH → Rn
Usando funcion lineal y suma de errores V PCA noordenado (vectores no normalizados)
91 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
PCA no-lineal
Para implementar NLPCA se necesitan mas capas (con unasolo pueden hacerse mapeos lineales)
Capas 1 y 3 sigmoidal, capa 4 lineal
Las primeras dos capas definen el mapeo al espacioH-dimensional
92 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
PCA no-lineal (2)
Capas 3 y 4 definen la inversa
Computacionalmente caro, puede reducir la dimensionalidaddonde PCA no puede
Puede caer en optimos locales
93 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Temario
1 Projection Pursuit Regression
2 Fundamentos
3 Perceptron
4 Redes neuronales Multicapas
5 BackPropagation
6 Aprendizaje y Generalizacion
7 Redes con funciones de radio basal
8 Aprendizaje Competitivo
9 PCA y ANN
10 Series de tiempo
94 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Series de Tiempo
Hemos visto el paradigma ANN estatico V o(t +1) secalcula en base a x(t)Problemas dinamicos
Reconocimiento de secuencias, asociacion temporal detareas
Redes neuronales recurrentes presentan conexiones auto,laterales y hacia atras lo que permite realizar tareasdinamicas
95 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Aprendizaje dinamico
El aprendizaje dinamico puede ser definido como una funcionque asocia las secuencias de entrada {Sx} al espacio desalida {So}Basados en el conjunto entrenamientoT = {(Sq
x ,Sqd)},q = 1, . . . ,m
Secuencia de entrada Sqx = {x(t)q, . . . ,x(t− (F−1))q}
Secuencia de salida Sqd = {d(t)q, . . . ,d(t− (F−1))q}
96 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Time Delay Neural Networks (TDNN)
Una posibilidad para reconocer secuencias es alimentar auna ANN estatica
[x(t),x(t−1), . . . ,x(t−F +1)]T es presentado como unpatron de entrada para la MLP
No se puede variar el largo F de las secuencias
97 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Back-Propagation Through Time
Transformar una RNN en una FFNN y entrenarla conBack-Propagation
98 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Aprendizaje recurrente
Para cada entrada x(t− τ) de la secuenciaSq
x = {xq(t),xq(t−1), . . . ,xq(t−F +1)} el valor de cadaunidad de salida se calcula:
oi(t− τ) = f (ai(t− τ−1)) = f
(∑
jwijoj(t− τ−1)+χi(t− τ−1)
)(23)
Los pesos wij incluyen auto-conexiones i = j
χi(t− τ) representa la parte de la entrada ai(t− τ) que vienedirectamente del vector de entrada x(t− τ)o(t) evoluciona en el tiempo de acuerdo a la secuencia deentrada Sx
99 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Aprendizaje recurrente en tiempo real
Supongamos una RNN con n valores de entrada, p unidadesde salida, y es alimentada con secuencias Sq
x ,q = 1, . . . ,mcon largo F(q)La meta es asociar entradas Sq
x y secuencias de salida Sqd
La funcion de error
Eq =0
∑τ=F(q)−1
Eq(t− τ) =0
∑τ=F(q)−1
(12
p
∑i=1
(eqi (t− τ))2
)
eqi (t− τ) =
{oq
i (t− τ)−dqi (t− τ) si i ∈ U(τ,q)
0 e.t.o.c.
Donde U(τ,q) representa el conjunto de unidades de salidacon un target dq
i (t− τ)
100 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Aprendizaje recurrente en tiempo real (2)
Minimizando Eq usando el gradiente
∆wqij =−η
∂Eq
∂wij=
0
∑τ=F(q)−1
−η∂Eq(t− τ)
∂wij=
0
∑τ=F(q)−1
∆wqij(t− τ)
(24)Considerando (23) se pueden calcular las derivadas de (24):
∂ok(t)∂wij
= f ′k(ak(t))
[δkioj(t)+∑
hwkh
∂oh(t)∂wij
]
δki =
{1 si i = k0 si i 6= k
El ındice h representa las neuronas que alimentan a lak-esima neurona.fk(ak(t)) es la funcion de activacion de la k-esima neurona
101 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Aprendizaje recurrente en tiempo real (3)
En general ∂ok(t)∂wij
depende del tiempo t, pero podemos asumirque la red tiene una condicion estable en el tiempot− (F(q)−1), es decir, ∂ok(t−F(q)+1)
∂wij= 0
De esta manera se puede calcular iterativamente ∆wqij(t− τ)
102 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Tecnica Forward-Backward
Extiende la tecnica anterior a analisis temporal de secuencias
la ecuacion que describe la evolucion de la neurona es
γi∂oi
∂t=−oi + f
(∑
jwijoj
)+χi (25)
Donde γ es la relajacion de escala de la i-esima neurona
La funcion de error (5) es integrada a traves de la secuenciade largo F(q) para realizar el analisis en tiempo continuo
Eq =12
∫ t
t−F(q)
p
∑k=1
(ok(t)−dk(t))2dt
103 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Tecnica Forward-Backward (2)
Usando el gradiente descendente
∆wqij =−η
∂Eq
∂wij(26)
∂Eq
∂wij=
1γi
∫ t
t−F(q)Yif ′
(∑
jwijoj
)ojdτ (27)
Yi puede obtenerse como el punto fijo de
γi∂Yi
∂t=− 1
γiYi +
p
∑k=1
1γk
f ′(
∑j
wkjoj
)wkiYk + ei(t− τ) (28)
Donde ei(t− τ) = di(t− τ)−oi(t− τ) y Yi(t) = 0 para todaslas unidades de salida i
104 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Tecnica Forward-Backward (3)
Sobre cada ejemplo de entrenamiento (Sqx ,S
qd):
1 La ecuacion (25) es integrada hacia adelante entre t−F(q) yt obteniendose funciones de salida oi(t)
2 Las funciones de error ei(t− τ) se calculan ∀τ = 0, . . . ,F(q)para todas las neuronas i
3 La ecuacion (28) es integrada hacia atras entre t y t−F(q)para obtener Yi(t) para cada neurona
4 Las derivadas parciales ∂Eq
∂wijse calculan de acuerdo a (27)
5 Los pesos son actualizados como en (26)
Esta tecnica es mas barata computacionalmente que RTRLpero no puede usarse en tiempo real
105 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Bibliografıa
T. Hastie, R. Tibshirani, and J. H. Friedman. The Elements ofStatistical Learning. Springer, August 2001.
Christopher M. Bishop. Pattern Recognition and MachineLearning (Information Science and Statistics).Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006.
Christopher M. Bishop. Neural Networks for PatternRecognition. Oxford University Press, 2005
C. Bishop. Neural Networks for Pattern Recognition, 1995.
Raul Rojas. Neural Networks - A Systematic Introduction.Springer-Verlag, Berlin, New-York, 1996.http://page.mi.fu-berlin.de/rojas/neural/index.html.html
106 / 107
“ANN”
Carlos ValleVidal
PPR
Fundamentos
Perceptron
MFNN
BackPropagation
Aprendizaje yGeneralizacion
RBF
AprendizajeCompetitivo
PCA y ANN
Series detiempo
Consultas y Comentarios
107 / 107