¿Qué son?

Las funciones de activación son parte fundamental de las redes neuronales artificiales. Su principal función es transformar la salida lineal de cada neurona en una salida no lineal, permitiendo que el modelo capture relaciones complejas entre variables de entrada y salida.

Desde el punto de vista matemático, una función de activación es una función real \(f: \mathbb{R} \rightarrow \mathbb{R}\) , aplicada de forma elemento a elemento sobre las salidas de cada capa. A su vez, introducen propiedades necesarias o deseables, como continuidad, diferenciabilidad y no linealidad, las cuales son esenciales para que el modelo pueda aprender.

Existen múltiples funciones de activación, cada una con sus propias características y ventajas según el tipo de problema a resolver. A continuación, hablaremos sobre algunas de ellas.

1. Swish

Es una función suave y continua que combina la entrada con su versión sigmoide. Su crecimiento es moderado para valores positivos y tiende a cero de forma gradual en los negativos. Esta forma le permite una transición progresiva entre zonas de activación.

La fórmula de su función y su respectiva derivada son:

\[ f(x) = \frac{x}{1 + e^{-x}} \]

\[ f'(x) = \sigma(x) + x \cdot \sigma(x)(1 - \sigma(x)), \quad \text{donde } \sigma(x) = \frac{1}{1 + e^{-x}} \]

Gráficas:

Swish ha demostrado ser útil en redes profundas debido a su comportamiento suave y a su capacidad de mantener la información en regiones negativas sin eliminarla por completo.

2. Mish

Esta función no es lineal, pero sí es continua y diferenciable en todo su dominio. Para valores positivos crece de manera similar a una recta. Para valores negativos, se reduce suavemente hasta estabilizarse en un valor cercano a -0.3, lo que evita cortes bruscos y permite mantener información útil en la activación.

La fórmula de su función y su respectiva derivada son: \[ f(x) = x \cdot \tanh(\ln(1 + e^x)) \] \[ f'(x) = \tanh(\ln(1 + e^x)) + x \cdot \text{sech}^2(\ln(1 + e^x)) \cdot \frac{e^x}{1 + e^x} \]

Gráficas:

Mish pertenece a una clase de funciones conocidas como no monótonas suaves. Su forma ha sido útil en modelos de visión por computadora al permitir una propagación más rica del gradiente, especialmente en redes profundas.

3. ELU (Exponential Linear Unit)

ELU es una función por partes que aplica una transformación exponencial suave a los valores negativos y una identidad a los positivos. Su salida se mantiene continua y derivable en todo punto.

La fórmula de su función y su respectiva derivada son: \[ f(x) = \begin{cases} x & \text{si } x \geq 0 \\ \alpha (e^x - 1) & \text{si } x < 0 \end{cases} \] \[ f'(x) = \begin{cases} 1 & \text{si } x \geq 0 \\ f(x) + \alpha & \text{si } x < 0 \end{cases} \]

Gráficas:

La función ELU está diseñada para producir salidas negativas suaves, lo cual ayuda a que la media de activación se mantenga cercana a cero. Esto mejora la eficiencia del entrenamiento y la estabilidad de la red.

4. GELU (Gaussian Error Linear Unit)

Es una función suave que activa la entrada de forma gradual, usando una curva basada en la distribución normal. Básicamente, activa cada valor de \(x\) básandose en qué tan probable es que una variable gaussiana sea menor que \(x\).

La fórmula de su función y su respectiva derviada son:

\[ f(x) \approx 0.5x \left(1 + \tanh\left[\sqrt{\frac{2}{\pi}} \left(x + 0.044715x^3\right)\right]\right) \] \[ f'(x) \approx 0.5 \left(1 + \tanh(u)\right) + 0.5x \cdot \text{sech}^2(u) \cdot \left(\sqrt{\frac{2}{\pi}}(1 + 3 \cdot 0.044715x^2)\right) \] donde \(u = \sqrt{\frac{2}{\pi}}(x + 0.044715x^3)\).

Nota: La derivada de GELU no tiene una forma cerrada sencilla, por lo que se usa una aproximación para su representación gráfica.

Gráficas:

A diferencia de otras funciones como ELU o Mish, GELU utiliza una forma basada en la probabilidad de una distribución normal. Esto le da una transición más progresiva cerca del cero, evitando tener que tomar decisiones abruptas en las activaciones.

5. Sinc

Es una función suave, impar y oscilante que decae en magnitud con el tiempo. Su punto en \(x=0\) se define como el límite para evitar indeterminación.

La fórmula de su función y su respectiva derivada son:

\[ f(x) = \begin{cases} 1 & \text{si } x = 0 \\ \frac{\sin(x)}{x} & \text{si } x \ne 0 \end{cases} \] \[ f'(x) = \begin{cases} 0 & \text{si } x = 0 \\ \frac{x \cos(x) - \sin(x)}{x^2} & \text{si } x \ne 0 \end{cases} \]

Gráficas:

Como se evidencia en la gráfica, Sinc presenta un comportamiento oscilante. Esto le permite retener información tanto positiva como negativa de manera más detallada. Aunque no es común en redes neuronales, su estructura puede resultar útil en modelos que se beneficien de señales periódicas o atención localizada.