Que son las funciones de activación

En redes neuronales, las funciones de activacion transforman la salida lineal de una neurona en una senal no lineal que se propaga a la siguiente capa. Sin estas funciones, la red quedaria limitada a relaciones lineales; con ellas, puede modelar patrones no lineales y aprender mapeos complejos entre entradas y salidas.


1) Lineal

La activacion lineal \(f(x)=x\) se usa tipicamente en la capa de salida para regresion; no introduce no linealidad, por lo que rara vez se usa en capas ocultas.

Definicion: \(f(x)=x\)

Derivada: \(f'(x)=1\)

2) Sigmoide

Comprime valores en (0,1). Comun en salidas binarias.

Definicion: \(f(x) = \frac{1}{1 + e^{-x}}\)

Derivada: \(f'(x) = f(x)(1 - f(x))\)

3) Tanh

Valores en [−1,1]. Centrados en cero, suelen entrenar mejor que sigmoide, aunque tambien sufren vanishing gradient.

Definicion: \(f(x) = \tanh(x)\)

Derivada: \(f'(x) = 1 - \tanh^2(x)\)

4) ReLU (Rectified Linear Unit)

Es rapida de computar, evita el vanishing gradient para x>0 y genera activaciones dispersas.

Definicion: \(f(x) = \max(0, x)\)

Derivada: \[ f'(x) = \begin{cases} 0, & x < 0 \\ 1, & x > 0 \end{cases} \]

5) Softmax

Convierte un vector de logits en una distribucion de probabilidad (suma 1). Tipica en salidas multiclase.

Definicion: \(f(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}}\)

Derivada: \[ \frac{\partial f(z_i)}{\partial z_j} = \begin{cases} f(z_i)(1 - f(z_i)), & i = j \\ - f(z_i) f(z_j), & i \neq j \end{cases} \]