Scratch Network

Neural network from Scratch: Multilayer perceptron 2 (Parte 8)

By 01/08/2018 febrero 23rd, 2020 No Comments

En el anterior articulo vimos como crear la red MLP, ¿Pero como la usamos para solucionar nuestro problema? Todo se basa en saber elegir correctamente las capas de activación y la loss.
Primero de todo repasemos ambos términos:

  • Regresión: Son problemas en los que buscamos predecir un valor continuo.
  • Clasificación: Son de problemas en los que buscamos predecir a que clase/clases pertenecen.

Las redes neuronales debido a su capacidad de adaptarse al medio, permiten obtener muy buenos resultados en ambos campos.

Regresión:

En el articulo anterior vimos algunas capas de activación ¿Pero cuales son las más aconsejables para regresión? Cuando hablamos de regresión realmente podemos usar cualquier tipo de capa de activación exceptuando la ultima capa donde normalmente haremos que la salida no tenga capa de activación. ¿Porque? Porque si añadimos en la ultima capa una activación por ejemplo sigmoid estaremos forzando a obtener una salida en un rango de [0, 1], y probablemente busquemos una salida  que tenga un rango de [-inf, inf].
Actualmente la tendencia es a usar ReLU y Pre-ReLU exceptuando en la ultima capa.

Clasificación:

Usar las redes para clasificación implica hacer una pequeña trampa y es que el problema sea de clasificación no quiere decir que la red lo vea como tal. Las redes internamente tratan el problema como si de un problema de regresión se tratase, lo único que se usan unas capas en concreto que permiten dicha adaptación.
Podemos tener un problema de clasificación de dos formas distintas:

  • Única clase: Tenemos una entrada de datos que puede ser una clase de entre N clases.
  • Múltiples clases: Tenemos una entrada de datos que puede tener activadas o no cada clase de las N clases.
Única clase:

Cuando hablamos de una problema de clasificación en el que debemos escoger una clase respecto N clases estamos hablando indirectamente de tener que usar One Hot Encoding, Softmax y Cross-entropy.
Primero de todo en la base de datos que usaremos para aprender la red deberemos usar el One Hot Enconding para codificar la clase (y) en un vector de N elementos con un uno y el resto zeros. Para entenderlo veamos el siguiente ejemplo:

X Clase (Y) #3 One hot vector
{1,2,1,12,1} 1 0,1,0
{-3,2,13,2,-2} 0 1,0,0
{1,1,1,2,3} 2 0,0,1

Como veis hemos convertido el numero de la clase a la que pertenece a un vector. Este vector será tan largo como clases haya.
Luego realizaremos el diseño de la red que más nos apetezca pero añadiremos como ultima capa tantas neuronas como clases tengamos (en el ejemplo anterior 3) y la activación Softmax.
¿Que es la activación softmax? Es por excelencia la activación que se usa en problemas de clasificación. Que se define de la siguiente forma:
{softmax}(x)_i = \frac{e^{x_i}}{\sum_j^N e^{x_j}} softmax(\vec{x}) = \frac{\vec{x}}{\sum_j^N e^{x_j}}
La Softmax usa las N entradas para normalizar la salida, devolviendo un valor de entre [0, 1]. Ademas normaliza la salida y la suma de todas las salidas equivale a 1. Esta condición la hace una función apta para representar la distribución de probabilidades de las N clases.
softmax(\vec{x})_i = P(y=clase_i | w) La derivada a diferencia de las anteriores capas de activación no es tan sencilla. Eso se debe a que la softmax no es una función element-wise, sino que en su calculo participan las demás entradas.
Cuando consideramos que i=j:
\frac{\partial s_i}{\partial x_i} = \frac{e^{x_i} \cdot \sum e^{x_j} - e^{x_i} \cdot e^{x_i}}{\left ( \sum e^x_j\right )^2} \frac{\partial s_i}{\partial x_i} = \frac{e^{x_i} \cdot \sum_j e^{x_j} - e^{x_i} \cdot e^{x_i}}{\left ( \sum_j e^{x_j} \right )^2} = \frac{e^{x_i}}{\sum_j e^{x_j}} \cdot \frac{\sum_j e^{x_j} - e^{x_i}}{\sum_j e^{x_j}} = s_i \cdot (1- s_i) Cuando consideramos que i!=j:
\frac{\partial s_i}{\partial x_j} = \frac{0 \cdot \sum e^{x_j} - e^{x_j} \cdot e^{x_i}}{\left ( \sum e^x_j \right )^2} = -s_i \cdot s_j  Por ese motivo cuando derivamos estamos haciendo uso de la jacobiana (que no es más que una matriz de todas las derivadas parciales, es decir indica la función a derivar y con respecto a que variable se deriva).
J_s(\vec{x}) = \frac{\partial s_1 ... s_n}{\partial x_0 ... x_n} Donde s es la función softmax.
\begin{bmatrix}<br /> \frac{\partial s_0}{\partial x_0} & ... & \frac{\partial s_0}{\partial x_n} \<br /> \vdots & \ddots & \vdots \<br /> \frac{\partial s_n}{\partial x_0} & ... & \frac{\partial s_n}{\partial x_n}<br /> \end{bmatrix} \frac{\partial out}{\partial \vec{x}} = J_s(\vec{x}) \cdot \frac{\partial out}{\partial s} Lo veremos mucho más claro si nos centramos en lo que le llega a x_1 Como veis x_1 son la suma de todas las contribuciones en las que participa, tanto su correspondiente salida s_1 como aquellas salidas en las que solamente se encuentra en el denominador s_2, s_3 y s_4.
x_i = \sum_j \frac{\partial out_j}{\partial s_j}\frac{\partial s_j}{\partial x_i} Basicamente lo que hace la softmax es coger un valor [$-\infty$, $\infty$] (llamado logit) y convertirlo en una probabilidad.

Múltiples clases

¿Que sucede cuando no queremos seleccionar solo una clase? Sino que una entrada puede pertener a distintas clases a la vez. Por ejemplo que la entrada de la red sea una prenda de ropa y la salida los atributos (tiene cuello/no, es tejano/no, color azul/no, etc…).
Obviamente en este caso la softmax no nos será útil puesto que las salidas deben ser independientes entre sí.
En este caso simplemente deberemos hacer uso de la activación sigmoid (explicada en el articulo anterior). Básicamente nos normalizará una entrada cualquiera a un valor de entre 0 y 1 (también podemos usar la tanh).

¿Y que pasa con la loss?

Vale si, hasta ahora sabemos que activaciones usar. ¿Pero que función de perdida es adecuada para tratar es un problema de clasificación?
No debemos olvidar que estamos tratando internamente con probabilidades, así que podemos usar cualquier métrica que permita comparar probabilidades. Al final compararemos la probabilidad obtenida de la salida de la red con el label que tenemos asignado a esa salida.
Por excelencia se acostumbra a usar la cross-entropy (existen otras como KL-Divergence):
loss(true, pred) = - \frac{1}{N} \sum_i true_i \cdot ln(pred_i) Su derivada es extremadamente simple \frac{\partial loss}{\partial \sigma} = -\sum_i \frac{true_i}{pred_i} \cdot \frac{\partial pred_i}{\partial \sigma} Donde true es el vector de probabilidades de los labels y pred es el vector de probabilidades de las predicciones (capa sigmoid o softmax de la red).
Las razones son diversas:

  • Combinada con la softmax existe una equivalencia que es muy robusta en términos de estabilidad numérica. En muchos frameworks encontrareis una loss como «cross_entropy_softmax». Ya que usar la cross-entropy junto softmax solo tendrá valor la salida en el que el label es 1.
  • Fácil de computar.
  • En el caso de usar una clasificación mediante sigmoide (binaria), se usa la versión simetrica para contemplar ambos casos: loss(true, pred) = - \frac{1}{N} \sum_i \left ( true_i \cdot ln(pred_i) +\sum_i (1 - true_i) \cdot ln(1 - pred_i) \right ).

Así que menos blablabla y vayamos al código.

¡Al código!

El one hot encode es bastante sencillo, basicamente convierte una valor entero en un vector de 1 y 0:

La softmax tiene una parte en python y otra en cython. Cython es código mezcla entre python y c++ que se transforma en código c++ para ser compilado como una librería dinámica, se usa para realizar el calculo de forma más eficiente. La parte de python solo hace de «wrapper» y la parte cython hace el resto. Aparte para mejorar la estabilidad numérica de la softmax se hace un pequeño truco y es restar el valor máximo.
s_i(x)= \frac{e^{\left ( x_i - max(x) \right )}}{\sum_j e^{\left (x_j - max(x) \right )}}

Cython:

La cross-entropy es muy sencilla, solamente se añade una epsilon en la predicción para evitar un log(0):

La cross-entropy junto a la softmax, si os fijáis en la derivada lo único que hacemos es pasar la probabilidad del label (que es 1) y queda como $p_i – y_i$ (donde $y_i$ es 1).

En fin, esto es todo. Hasta ahora ya podemos decir que tenemos un framework de Deep Learning, muy sencillito pero lo tenemos.
Nos vemos en próximos posts 😉

Referencias:

Deja un comentario