En redes neuronales, las funciones de activacion transforman la salida lineal de una neurona en una senal no lineal que se propaga a la siguiente capa. Sin estas funciones, la red quedaria limitada a relaciones lineales; con ellas, puede modelar patrones no lineales y aprender mapeos complejos entre entradas y salidas.
La activacion lineal \(f(x)=x\) se usa tipicamente en la capa de salida para regresion; no introduce no linealidad, por lo que rara vez se usa en capas ocultas.
Definicion: \(f(x)=x\)
Derivada: \(f'(x)=1\)
Comprime valores en (0,1). Comun en salidas binarias.
Definicion: \(f(x) = \frac{1}{1 + e^{-x}}\)
Derivada: \(f'(x) = f(x)(1 - f(x))\)
Valores en [−1,1]. Centrados en cero, suelen entrenar mejor que sigmoide, aunque tambien sufren vanishing gradient.
Definicion: \(f(x) = \tanh(x)\)
Derivada: \(f'(x) = 1 - \tanh^2(x)\)
Es rapida de computar, evita el vanishing gradient para x>0 y genera activaciones dispersas.
Definicion: \(f(x) = \max(0, x)\)
Derivada: \[ f'(x) = \begin{cases} 0, & x < 0 \\ 1, & x > 0 \end{cases} \]
Convierte un vector de logits en una distribucion de probabilidad (suma 1). Tipica en salidas multiclase.
Definicion: \(f(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}}\)
Derivada: \[ \frac{\partial f(z_i)}{\partial z_j} = \begin{cases} f(z_i)(1 - f(z_i)), & i = j \\ - f(z_i) f(z_j), & i \neq j \end{cases} \]