En el aprendizaje automático, las funciones de activación son componentes fundamentales que determinan cómo las neuronas artificiales procesan y transmiten información.
Este documento presenta cinco funciones clave y representaciones visuales.
La función identidad es la transformación más simple, donde la salida es igual a la entrada. Se utiliza principalmente en problemas de regresión lineal.
\[f(x) = x\]
\[f'(x) = 1\]
La función sigmoide transforma los valores al rango (0,1), siendo útil para modelos de probabilidad. Presenta el problema de “vanishing gradients” en valores extremos.
\[ f(x) = \frac{1}{1 + e^{-x}} \\ f'(x) = f(x)\left(1 - f(x)\right) = \frac{e^{-x}}{(1 + e^{-x})^2} \]
Similar a la sigmoide pero centrada en cero (rango [-1,1]), mejora el aprendizaje en redes profundas al tener derivadas más pronunciadas.
\[ f(x) = \tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} \\ f'(x) = 1 - \tanh^2(x) \]
Actualmente la más popular por su simplicidad computacional y eficacia. Evita el vanishing gradient para valores positivos pero sufre de “neuronas muertas” para valores negativos.
\[ f(x) = \max(0, x) \\ f'(x) = \begin{cases} 1 & \text{si } x > 0 \\ 0 & \text{si } x \leq 0 \end{cases} \]
Es una versión suavizada de la función ReLU, ya que nunca es exactamente cero, pero se comporta de forma similar para valores positivos. Tiene la ventaja de ser continua y diferenciable en todo su dominio, lo que facilita el entrenamiento de modelos. Su derivada es la función sigmoide.
\[ f(x) = \log(1 + e^x) \\ f'(x) = \frac{e^x}{1 + e^x} \]