Introducción

En el aprendizaje automático, las funciones de activación son componentes fundamentales que determinan cómo las neuronas artificiales procesan y transmiten información.

Este documento presenta cinco funciones clave y representaciones visuales.

Función Identidad

La función identidad es la transformación más simple, donde la salida es igual a la entrada. Se utiliza principalmente en problemas de regresión lineal.

\[f(x) = x\]

\[f'(x) = 1\]

Función Sigmoide

La función sigmoide transforma los valores al rango (0,1), siendo útil para modelos de probabilidad. Presenta el problema de “vanishing gradients” en valores extremos.

\[ f(x) = \frac{1}{1 + e^{-x}} \\ f'(x) = f(x)\left(1 - f(x)\right) = \frac{e^{-x}}{(1 + e^{-x})^2} \]

Función Tangente Hiperbólica

Similar a la sigmoide pero centrada en cero (rango [-1,1]), mejora el aprendizaje en redes profundas al tener derivadas más pronunciadas.

\[ f(x) = \tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} \\ f'(x) = 1 - \tanh^2(x) \]

Función ReLU

Actualmente la más popular por su simplicidad computacional y eficacia. Evita el vanishing gradient para valores positivos pero sufre de “neuronas muertas” para valores negativos.

\[ f(x) = \max(0, x) \\ f'(x) = \begin{cases} 1 & \text{si } x > 0 \\ 0 & \text{si } x \leq 0 \end{cases} \]

Función Softplus

Es una versión suavizada de la función ReLU, ya que nunca es exactamente cero, pero se comporta de forma similar para valores positivos. Tiene la ventaja de ser continua y diferenciable en todo su dominio, lo que facilita el entrenamiento de modelos. Su derivada es la función sigmoide.

\[ f(x) = \log(1 + e^x) \\ f'(x) = \frac{e^x}{1 + e^x} \]