Bosque de árboles aleatorios

La principal característica del algoritmo bosque aleatorio es su flexibilidad, facilidad de uso y no se necesitan grandes datos además se pueden utilizar tanto para la regresión y clasificación.

Este algoritmo se trata en la creación y combinación de múltiples árboles de decisión para generar una mayor precisión y que la predicción sea más estable es decir trata de encontrar de una diversidad de datos las mejores características de un subconjunto para un mejor modelo (Faleiros, Henrique, & Maia Polo, 2018).

Estos son los pasos del modelo bosque aleatorio:

• Se define el número de árboles que contendrá el bosque.

• Aplicar un muestreo de sustitución del tamaño de su base de entrenamiento (bootstrapping) para cada árbol.

• Elegir un número m menor o igual que el número de variables independientes.

• Para cada árbol del algoritmo elegir m variables independientes en forma aleatoria.

• Hacer crecer los árboles hasta una profundidad que ya no sea posible que crezcan más.

• Tener en cuenta todas las predicciones de un individuo.

• En el caso de clasificación realizar una votación (por mayoría) y una media en el caso de regresión para obtener la predicción final.

Regresión Lineal

Es más utilizado como un algoritmo de clasificación a pesar de tener el nombre de algoritmo de regresión, y el más sencillo para empezar en ML, su análisis permite hacer predicciones a través de datos históricos continuos y su relación existente (Chollet, 2018).

En un algoritmo de regresión lineal cada dato de entrada tiene su propio peso, donde los datos de entrada o variables independientes se asignan en una matriz X y los pesos de regresión o variables dependientes en una vector Y (Harrington, 2012).

La regresión utiliza ecuaciones lineales, ya sean simples donde solo existe una variable independiente, y múltiples donde existe más de una variable independiente, a continuación, la fórmula de una ecuación lineal múltiple:

\[ y = b + m_1 x_1 + m_2 x_2 + ... + m_d x_d \]

Donde: y = Variable dependiente. b = La constante o intersección. xi = Las entradas o variables independientes. mi = Coeficiente, pendiente o valor a determinar.

El objetivo de este algoritmo es minimizar la distancia entre los datos y la línea para ello utiliza el criterio del error de los mínimos cuadrados con los valores predichos y los reales, donde cuanto más cerca pasen los puntos de la recta, es mejor.

Naive Bayes

Este clasificador es probabilístico y aplica el teorema de bayes, digamos que las características de entrada \(x_1, x_2, ..., x_n\) por condición son independientes entre sí, dado la etiqueta de clase Y, tal como:

\[ P\left(x_{1}, x_{2} \ldots x_{n} \mid Y\right)=\prod_{i=1}^{n} P\left(x_{i} \mid Y\right) \]

Para esta clasificación de dos clases donde \((i=0.1)\), se define como P (i | x) como la probabilidad del vector de medidas \(x\) {\(x_1,x_2,..., x_n\)} pertenece a la clase \(i\). Donde se define el puntaje de la clasificación de la siguiente forma:

\[ \frac{P(1 \mid x)}{P(0 \mid x)}=\frac{\prod_{j=1}^{n} f\left(x_{j} \mid 1\right) P(1)}{\prod_{j=1}^{n} f\left(\boldsymbol{x}_{j} \mid \mathbf{0}\right) P(\mathbf{0})}=\frac{P(1)}{P(0)}=\prod_{j=1}^{n} \frac{f\left(\boldsymbol{x}_{j} \mid \mathbf{1}\right)}{f\left(\boldsymbol{x}_{j} \mid \mathbf{0}\right.} \] \[ \ln \frac{P(1 \mid x)}{P(0 \mid x)}=\ln \frac{P(1)}{P(0)}+\sum_{j=1}^{n} \ln \frac{f\left(x_{j} \mid 1\right)}{f\left(x_{j} \mid 0\right.} \]

Donde P\((i|x)\) es proporcional a \(f (x|i) P(i)\) y \(f(x|i)\) es la estructura condicional de \(x\) para objetos de la clase \(i\).

El modelo de Bayes es eficaz, e interesante ya que es simple y robusto. Y no requiere la realización de esquemas complicados de estimación iterativa de parámetros a grandes volúmenes de datos ya que es muy fácil de construir y utilizar (Awad & Khanna, 2015, pág. 15).

Regresión Logística

Este algoritmo de regresión logística, es un modelo estadístico y probabilístico que pronostica la probabilidad de que se manifieste un suceso, ya que modela la relación entre la dependiente “X” y un resultado característico “Y”.

Se expresa como:

\[ P(Y \mid X)=\frac{e^{\beta_{0}+\beta_{1} X}}{1+e^{\beta_{0}+\beta_{1} X}} \]

Esta función logística puede reformularse como la inversa que se le llama logit o log-odds fundamental para generar sus coeficientes.

\[ \operatorname{logit}(P(Y \mid X))=\operatorname{In}\left[\frac{P(Y \mid X)}{1-P(Y \mid X)}\right]=\beta_{0}+\beta_{1} X \]

Esta función logística recibe un rango de valores de entrada (_0+_1X) entre infinito positivo y negativo, y la salida P(Y|X) esta limitado a los valores 0 y 1, como se muestra:

Red Neuronal Artificial

La red neuronal artificial es un modelo computacional que imita las conexiones neuronales del cerebro, intentando realizar tareas de clasificación de manera similar al ser humano. Las neuronas o unidades están conectadas de manera direccional o bidireccional y cada conexión tiene un peso para representar la fuerza de las conexiones neuronales, contando con unidades de entrada y de salida (Biem, 2015).

Una red neuronal está compuesta por un modelo neuronal que indica como una neurona devuelve una salida a partir de datos de entrada, la arquitectura que describe las conexiones entre las neuronas, la política de codificación, la política de codificación de datos de entrada y etiquetas, y por último el algoritmo de entrenamiento (Biem, 2015).

La red neuronal está comúnmente descrita como un grafo, donde las neuronas son los nodos y sus conexiones son las aristas que unen la salida de una neurona con la entrada de otra, definiendo la entrada como la suma ponderada de las salidas de las neuronas conectadas a ella. La red neuronal puede estar distribuida en capas o subconjuntos, teniendo como una capa de entrada V0 de n + 1 neuronas, donde n es la cantidad del espacio de entrada, la salida de la neurona \(i\) en \(V_0\) es \(x_i\), la última neurona en este nivel es una constante 1 (Shalev & Ben, 2014).

Denotamos \(V_t,i\), donde t es la profundidad de la red o la cantidad de capas sin la considerar \(V_0\), calculando las salidas de las neuronas de la capa t, se podrá calcular las salidas de las neuronas de la capa t + 1 como sigue, cuando la red es alimentada con el vector de entrada x. Las capas \(V_1\), . . ., \(V_T - 1\) son las capas ocultas y la última es la capa de salida. En la siguiente figura se muestra una red neuronal de profundidad V = 2, tamaño 10 y anchura 5, con una neurona en la capa oculta que no tiene aristas de entrada (Shalev & Ben, 2014).

