Regresión Lineal: Conceptos Matemáticos

Regresión Lineal Simple

La regresión lineal simple modela la relación entre dos variables, \(X\) (variable independiente) y \(Y\) (variable dependiente), asumiendo que \(Y\) puede predecirse linealmente a partir de \(X\).

Fórmula Matemática:

\[ Y = \beta_0 + \beta_1 X + \epsilon \] Donde: - \(Y\): Variable dependiente (respuesta). - \(X\): Variable independiente (predictora). - \(\beta_0\): Intersección o intercepto. - \(\beta_1\): Pendiente o coeficiente de la variable independiente. - \(\epsilon\): Término de error (residual).

Generemos un pequeño modelo en R para observar como se hace.

Interpretación de los Coeficientes

  • Intersección (\(\beta_0\)): Es el valor de \(Y\) cuando \(X = 0\). Representa el punto donde la línea de regresión corta el eje \(Y\).
  • Pendiente (\(\beta_1\)): Indica cuánto cambia \(Y\) por cada unidad de cambio en \(X\). Si la pendiente es positiva, \(Y\) aumenta conforme aumenta \(X\); si es negativa, \(Y\) disminuye cuando \(X\) aumenta.

Cálculo de los Coeficientes

Para estimar los coeficientes \(\beta_0\) y \(\beta_1\), utilizamos el método de los mínimos cuadrados, que minimiza la suma de los cuadrados de los errores (diferencia entre los valores observados y los predichos).

Fórmulas:

\[ \hat{\beta}_1 = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sum (X_i - \bar{X})^2} \] \[ \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X} \] Donde \(\bar{X}\) y \(\bar{Y}\) son los promedios de \(X\) y \(Y\), respectivamente.

Error (Residuo)

El error o residuo es la diferencia entre el valor observado \(Y\) y el valor predicho por el modelo \(\hat{Y}\).

Visualizando los errores, podemos ver cómo se desvían los puntos observados de la línea de regresión ajustada.

Las líneas rojas representan los residuos o errores entre los valores observados y los valores predichos.

Minimización de la Suma de Cuadrados de los Errores

El objetivo de la regresión lineal es minimizar la suma de los cuadrados de los errores (SSE).

Fórmula del SSE:

\[ SSE = \sum (Y_i - \hat{Y}_i)^2 \] Los coeficientes \(\hat{\beta}_0\) y \(\hat{\beta}_1\) se eligen para que el SSE sea lo más pequeño posible.

Predicciones usando el Modelo

Una vez que tenemos el modelo ajustado, podemos hacer predicciones de \(Y\) para nuevos valores de \(X\).

Fórmula de Predicción:

\[ \hat{Y} = \hat{\beta}_0 + \hat{\beta}_1 X \]

Regresión Lineal múltiple

La regresión lineal múltiple es una extensión de la regresión lineal simple, que permite modelar la relación entre una variable dependiente y varias variables independientes. Este modelo permite estudiar el efecto combinado de múltiples variables predictoras sobre la variable respuesta.

Fórmula de la Regresión Lineal Múltiple

La ecuación de un modelo de regresión lineal múltiple con \(n\) variables independientes es la siguiente:

\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_n + \epsilon \]

Donde: - \(Y\) es la variable dependiente (respuesta). - \(X_1, X_2, \dots, X_n\) son las variables independientes (predictoras). - \(\beta_0\) es el intercepto o valor de \(Y\) cuando todas las \(X_i\) son 0. - \(\beta_1, \beta_2, \dots, \beta_n\) son los coeficientes de regresión que indican cuánto cambia \(Y\) por cada unidad de cambio en la variable independiente correspondiente, manteniendo las otras constantes. - \(\epsilon\) es el término de error, que captura la variabilidad en \(Y\) no explicada por las variables independientes.

Interpretación de los Coeficientes

  • Intersección (\(\beta_0\)): Representa el valor esperado de \(Y\) cuando todas las variables independientes son iguales a 0.
  • Pendientes (\(\beta_1, \beta_2, \dots, \beta_n\)): Cada coeficiente \(\beta_i\) indica el cambio esperado en \(Y\) por cada unidad de aumento en \(X_i\), manteniendo las otras variables constantes. Este concepto se conoce como el efecto marginal de cada variable independiente.

Ajuste del Modelo

El modelo se ajusta utilizando el método de los mínimos cuadrados, que busca minimizar la suma de los cuadrados de los errores (residuos) entre los valores observados y los valores predichos.

La suma de los cuadrados de los residuos (SSE) se calcula como:

\[ SSE = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 \]

Donde: - \(Y_i\) son los valores observados de la variable dependiente. - \(\hat{Y}_i\) son los valores predichos por el modelo.

Gráfica de un Plano de Regresión

En la regresión lineal múltiple con dos variables independientes (\(X_1\) y \(X_2\)), el modelo ajusta un plano de regresión en un espacio tridimensional para predecir la variable dependiente \(Y\).

Evaluación de modelos

Coeficiente de Determinación (\(R^2\))

El R-squared \(R^2\) es una medida que indica qué tan bien los datos se ajustan al modelo. Se interpreta como la proporción de la variabilidad en \(Y\) que es explicada por \(X\).

Fórmula de \(R^2\):

\[ R^2 = 1 - \frac{SSE}{SST} \] Donde \(SST\) es la suma total de cuadrados.

Interpretación:

Un valor de \(R^2\) cercano a 1 indica que el modelo explica bien los datos; un valor cercano a 0 indica que el modelo no se ajusta bien.

RMSE:

La raíz error cuadrático medio (RMSE) es una métrica común para evaluar modelos de regresión.

¿Qué es el RMSE? La Raíz del Error Cuadrático Medio (RMSE, por sus siglas en inglés) es una métrica que se utiliza para evaluar la calidad de un modelo de regresión. El RMSE es simplemente la raíz cuadrada del Error Cuadrático Medio (MSE), lo que lo hace más fácil de interpretar ya que está en las mismas unidades que la variable dependiente.

La fórmula del RMSE es:

\[ RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2} \]

Donde: - \(n\) es el número de observaciones. - \(Y_i\) son los valores observados. - \(\hat{Y}_i\) son los valores predichos por el modelo. - \((Y_i - \hat{Y}_i)\) es el residuo o el error (la diferencia entre el valor real y el valor predicho).

¿Cómo Interpretarlo? 1. Valores pequeños de RMSE: Un RMSE más bajo indica que las predicciones del modelo están más cerca de los valores observados, lo que significa que el modelo tiene un mejor rendimiento.

  1. Valores grandes de RMSE: Un RMSE más alto sugiere que el modelo tiene errores más grandes al predecir los valores, lo que significa que no ajusta bien los datos.

  2. Escala del RMSE: A diferencia del MSE, el RMSE está en las mismas unidades que la variable dependiente (por ejemplo, si estás modelando millas por galón, el RMSE estará en unidades de millas por galón). Esto lo hace mucho más intuitivo para interpretar en comparación con el MSE.

  3. Comparación entre modelos: Como el RMSE es una medida absoluta de error, puedes usarlo para comparar diferentes modelos. Un RMSE más bajo indica que el modelo tiene un rendimiento mejor.

  4. Sensibilidad a outliers: Similar al MSE, el RMSE es sensible a valores atípicos (outliers). Debido a que los errores se elevan al cuadrado antes de calcular la raíz cuadrada, los grandes errores tienen un impacto significativo en el RMSE.

Ventajas del RMSE - El RMSE tiene la ventaja de estar en las mismas unidades que la variable de respuesta, lo que hace que sea más fácil de interpretar. - Permite una comparación directa con los valores observados, ayudando a entender el tamaño promedio de los errores.

Limitaciones del RMSE - El RMSE es muy sensible a grandes errores debido a la elevación al cuadrado de las diferencias. Un solo valor atípico puede inflar significativamente el RMSE. - El RMSE no proporciona una medida relativa del error en comparación con los valores observados. Esto quiere decir que el RMSE expresa el tamaño del error en términos absolutos (es decir, en las mismas unidades que la variable que estás prediciendo), pero no nos dice qué tan grande o pequeño es ese error en relación con los valores observados o el rango de la variable dependiente, es decir, no nos indica porcentajes de error. Para eso, otras métricas como el MAE (Mean Absolute Error) o el R-squared pueden ser más útiles en ciertos contextos.

Secreto de la abuela Te recomiendo comparar el RMSE con la desviación estandar del conjunto de datos original. ¿Por qué? comparar el RMSE con la desviación estándar del conjunto de datos original puede darte una idea de cómo se comportan los errores en relación con la variabilidad inherente de los datos. Recuerda que La desviación estándar mide la dispersión de los datos en torno a su media. Indica cuán dispersos están los valores observados (reales) en el conjunto de datos.

¿Cómo interpretamos la comparación entre RMSE y la desviación estándar? - Si el RMSE es cercano a la desviación estándar de los valores observados, significa que el modelo no está mejorando mucho sobre la variabilidad natural de los datos; en otras palabras, el error de predicción del modelo es similar a la variabilidad natural del conjunto de datos. En terminos coloquiales, peor es nada.

  • Si el RMSE es mucho menor que la desviación estándar, significa que el modelo está haciendo un buen trabajo reduciendo el error en comparación con la dispersión original de los datos. (Esto es lo que deseamos)

  • Si el RMSE es mayor que la desviación estándar, podría ser una señal de que el modelo no está capturando bien la estructura de los datos, y sus predicciones están tan dispersas o más dispersas que los propios valores originales. En pocas palabras, no tenemos un buen modelo.

Fundamentos Matemáticos de la Regresión Logística Simple y Múltiple

Introducción

La regresión logística es un modelo estadístico utilizado para predecir la probabilidad de un evento binario (es decir, uno de dos posibles resultados: 0 o 1) basado en uno o más predictores o variables independientes. A diferencia de la regresión lineal, que predice un valor continuo, la regresión logística predice probabilidades, que se transforman en un valor categórico utilizando una función sigmoide.

¿Cuándo usar Regresión Logística?

La regresión logística se usa cuando la variable dependiente es binaria, es decir, cuando solo hay dos resultados posibles, como “sí” o “no”, “verdadero” o “falso”, “0” o “1”.

Función Logística

La función logística convierte una combinación lineal de los predictores en una probabilidad que se encuentra entre 0 y 1. La fórmula de la función logística es la siguiente:

\[ P(Y = 1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X)}} \]

Donde: - \(P(Y = 1|X)\) es la probabilidad de que ocurra el evento (es decir, que la variable dependiente sea 1). - \(\beta_0\) es el intercepto del modelo. - \(\beta_1\) es el coeficiente asociado a la variable independiente \(X\). - \(e\) es la base del logaritmo natural.

Gráfico de la Función Logística

La función logística genera una curva en forma de “S”, también conocida como curva sigmoide, que tiene el siguiente aspecto:

Regresión Logística Simple

En la regresión logística simple, tenemos solo un predictor o variable independiente \(X\), y el objetivo es predecir la probabilidad de un evento binario \(Y\).

Fórmula Matemática

La fórmula de la regresión logística simple es:

\[ \text{logit}(P) = \log \left(\frac{P}{1 - P}\right) = \beta_0 + \beta_1 X \]

Donde: - \(P\) es la probabilidad de que \(Y = 1\). - \(\text{logit}(P)\) es la función logit, que transforma la probabilidad \(P\) en una escala continua. - \(\beta_0\) es el intercepto del modelo. - \(\beta_1\) es el coeficiente asociado a la variable \(X\).

Transformación de la Logit a Probabilidad

Podemos transformar la función logit de nuevo a la escala de probabilidad usando la siguiente fórmula:

\[ P(Y = 1 | X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X)}} \]

Regresión Logística Múltiple

En la regresión logística múltiple, utilizamos varias variables independientes para predecir la probabilidad de que ocurra un evento binario.

Fórmula Matemática

La fórmula de la regresión logística múltiple es:

\[ \text{logit}(P) = \log \left( \frac{P}{1 - P} \right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_n \]

Donde: - \(P\) es la probabilidad de que \(Y = 1\). - \(\beta_0\) es el intercepto. - \(\beta_1, \beta_2, \dots, \beta_n\) son los coeficientes de las variables independientes \(X_1, X_2, \dots, X_n\).

Interpretación de los Coeficientes

  • Cada coeficiente \(\beta_i\) representa el efecto de la variable \(X_i\) en el logaritmo de las probabilidades (log-odds), manteniendo las demás variables constantes.
  • Un coeficiente positivo indica que un aumento en \(X_i\) incrementa la probabilidad de que \(Y = 1\), mientras que un coeficiente negativo indica lo contrario.

Métricas de Evaluación

Para evaluar el rendimiento del modelo de regresión logística, se pueden usar las siguientes métricas:

Matriz de Confusión

La matriz de confusión se utiliza para observar el número de: - Verdaderos Positivos (TP): Casos predichos como positivos y que realmente son positivos. - Verdaderos Negativos (TN): Casos predichos como negativos y que realmente son negativos. - Falsos Positivos (FP): Casos predichos como positivos, pero que realmente son negativos. - Falsos Negativos (FN): Casos predichos como negativos, pero que realmente son positivos.

Precisión, Recall, y F1-Score

Estas métricas son útiles cuando los datos están desbalanceados: - Precisión (Precision): La proporción de verdaderos positivos entre los casos predichos como positivos.

\[ \text{Precisión} = \frac{TP}{TP + FP} \]

  • Recall (Sensibilidad o Tasa de Verdaderos Positivos): La proporción de verdaderos positivos entre todos los casos que son realmente positivos.

\[ \text{Recall} = \frac{TP}{TP + FN} \]

  • F1-Score: Es la media armónica entre la precisión y el recall. Es útil para un balance entre ambas métricas, especialmente cuando los datos están desbalanceados.

\[ \text{F1-Score} = 2 \times \frac{\text{Precisión} \times \text{Recall}}{\text{Precisión} + \text{Recall}} \]

No olvides que el valor 1 es el valor ideal para las métricas de precisión, recall, y F1-Score. En ese sentido, buscamos valores cercanos a 1, como hacemos con \(R^2\). Para implementar las métricas de una forma sencilla en R, utilizamos la libreria Caret, instalala en caso de que no la tengas. Nota: Caret carga las librerías ggplot2 y lattice por defecto. Estas son librerías gráficas.

Recapitulando…

La regresión lineal es una técnica básica, pero muy útil, para modelar la relación entre dos o más variables. Comprender los coeficientes y los errores es clave para interpretar el modelo. El método de mínimos cuadrados se usa para ajustar el modelo minimizando los errores, y el \(R^2\) y RMSE, entre otras, son métricas importantes para evaluar el rendimiento del modelo.

Por su parte, la regresión logística es usada en el análisis de variables binarias.

  • En la regresión logística simple, se utiliza una única variable independiente para predecir la probabilidad de que un evento binario ocurra, utilizando la función logística o sigmoide.

  • En la regresión logística múltiple, se emplean varias variables independientes para modelar la probabilidad de ocurrencia de un evento binario, lo que permite una mayor flexibilidad y precisión en las predicciones.

Con ambos tipos de modelos podemos predecir probabilidades y clasificaciones binarias. Estos modelos no solo son útiles en ciencias sociales y medicina, sino también en muchos otros campos donde los resultados binarios necesitan ser predichos con precisión, como la detección de fraudes, análisis de comportamiento de clientes y más.

Además, es importante evaluar los modelos utilizando métricas adecuadas, como la matriz de confusión, para asegurarse de que las predicciones sean precisas y útiles para la toma de decisiones.