Funciones de activación

Que son las funciones de activación

En redes neuronales, las funciones de activacion transforman la salida lineal de una neurona en una senal no lineal que se propaga a la siguiente capa. Sin estas funciones, la red quedaria limitada a relaciones lineales; con ellas, puede modelar patrones no lineales y aprender mapeos complejos entre entradas y salidas.

1) Lineal

La activacion lineal \(f(x)=x\) se usa tipicamente en la capa de salida para regresion; no introduce no linealidad, por lo que rara vez se usa en capas ocultas.

Definicion: \(f(x)=x\)

Derivada: \(f'(x)=1\)

2) Sigmoide

Comprime valores en (0,1). Comun en salidas binarias.

Definicion: \(f(x) = \frac{1}{1 + e^{-x}}\)

Derivada: \(f'(x) = f(x)(1 - f(x))\)

3) Tanh

Valores en [−1,1]. Centrados en cero, suelen entrenar mejor que sigmoide, aunque tambien sufren vanishing gradient.

Definicion: \(f(x) = \tanh(x)\)

Derivada: \(f'(x) = 1 - \tanh^2(x)\)

4) ReLU (Rectified Linear Unit)

Es rapida de computar, evita el vanishing gradient para x>0 y genera activaciones dispersas.

Definicion: \(f(x) = \max(0, x)\)

Derivada: \[ f'(x) = \begin{cases} 0, & x < 0 \\ 1, & x > 0 \end{cases} \]

5) Softmax

Convierte un vector de logits en una distribucion de probabilidad (suma 1). Tipica en salidas multiclase.

Definicion: \(f(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}}\)

Derivada: \[ \frac{\partial f(z_i)}{\partial z_j} = \begin{cases} f(z_i)(1 - f(z_i)), & i = j \\ - f(z_i) f(z_j), & i \neq j \end{cases} \]

Bibliografia

https://www.datacamp.com/es/tutorial/introduction-to-activation-functions-in-neural-networks

https://www.geeksforgeeks.org/deep-learning/activation-functions-in-neural-networks-using-r/