library(readxl)
datos <- read_excel("C:/Users/EQUIPO/Downloads/Datos (3).xlsx")Estimación de parámetros modelo de regresión lineal múltiple.
1: Estimación de parámetros del modelo de regresión de manera matricial
Ecuaciones
Se definen los elementos del modelo en su forma matricial de la siguiente manera:
\[ \underset{n \times 1}{Y} = \begin{bmatrix} Y_1 \\ Y_2 \\ Y_3 \\ \vdots \\ Y_n \end{bmatrix} \; ; \; \underset{n \times 2}{X} = \begin{bmatrix} 1 & X_1 \\ 1 & X_2 \\ 1 & X_3 \\ \vdots & \vdots \\ 1 & X_n \end{bmatrix} \; ; \; \underset{2 \times 1}{\beta} = \begin{bmatrix} \beta_0 \\ \beta_1 \end{bmatrix} \; ; \; \underset{n \times 1}{\epsilon} = \begin{bmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_n \end{bmatrix} \tag{1}\]
Transpuestas de X
La traspuesta de una matriz \(A\) es otra matriz, denotada \(X'\) o \(X^T\), que se obtiene intercambiando las filas y las columnas de la matriz \(X\).
Sea \(X = [x_{ij}]\), la matriz traspuesta de \(X\) es igual a:
\[ X' = [x_{ji}] \tag{2}\]
XT POR X
Sea la matriz \(XT = [XT_{ij}]\) con dimensiones \(r \times c\) y la matriz \(X = [X_{ij}]\) con dimensiones \(c \times s\), el producto $XTX es una matriz de dimensiones \(r \times s\) cuyos elementos de la fila \(i\) y la columna \(j\) son:
\[ \sum_{k=1}^{c} XT_{ik} X_{kj} \]
Por lo tanto:
\[ XTX_{r \times s} = \left[ \sum_{k=1}^{c} XT_{ik} X_{kj} \right] \; ; \; i = 1, \ldots, r \; ; \; j = 1, \ldots, s \]
Por ejemplo, sea la matriz \(XT\):
\[ XT= \begin{bmatrix} 2 & 5 \\ 4 & 1 \end{bmatrix} \]
Y la matriz \(X\):
\[ X = \begin{bmatrix} 4 & 6 \\ 5 & 8 \end{bmatrix} \]
La matriz \(XTX\) está dada por:
\[ XTX = \begin{bmatrix} (2 \times 4) + (5 \times 5) & (2 \times 6) + (5 \times 8) \\ (4 \times 4) + (1 \times 5) & (4 \times 6) + (1 \times 8) \end{bmatrix} \quad XTX = \begin{bmatrix} 33 & 52 \\ 21 & 32 \end{bmatrix} \]
Inversa de XTX
La inversa de la matriz \(XTX\) cuadrada, es otra matriz denotada \(XTX^{-1}\) que cumple:
\[ A^{-1}A = AA^{-1} = I \]
La inversa de una matriz \(A_{2 \times 2}\) se calcula de la siguiente manera:
\[ A = \begin{bmatrix} a & b \\ c & d \end{bmatrix} \quad A^{-1} = \frac{1}{ad - bc} \begin{bmatrix} d & -b \\ -c & a \end{bmatrix} \]
\[ ad - bc \]
XT POR Y
Sea la matriz \(XT = [XT_{ij}]\) con dimensiones \(r \times c\) y la matriz \(Y = [Y_{ij}]\) con dimensiones \(c \times s\), el producto $XTX es una matriz de dimensiones \(r \times s\) cuyos elementos de la fila \(i\) y la columna \(j\) son:
\[ \sum_{k=1}^{c} XT_{ik} Y_{kj} \]
Por lo tanto:
\[ XTY_{r \times s} = \left[ \sum_{k=1}^{c} XT_{ik} Y_{kj} \right] \; ; \; i = 1, \ldots, r \; ; \; j = 1, \ldots, s \]
BETAS
El modelo de regresión lineal múltiple se expresa como :
\[ y_i = \sum_{k=0}^{p-1} \beta_k x_{ik} + \epsilon_i \tag{3}\]
Donde \(\beta_k\) son los parámetros, \(x_{ik}\) las variables predictoras (con \(x_{i0} = 1\)) y \(\epsilon_i \sim N(0, \sigma^2)\) los errores independientes, con \(i = 1, \ldots, n\).
Codigo utilizado
# Variables
y <- datos$y
x1 <- datos$x1
x2 <- datos$x2
x3 <- datos$x3
x4 <- datos$x4
x5 <- datos$x5
# Matriz Y
Y <- matrix(c(y), nrow = length(y), ncol = 1)
# Matriz X
X <- matrix(c(rep(1, 22), x1, x2, x3, x4, x5), nrow = length(y), ncol = 6)
# Transpuesta de X
XT <- t(X)
# Multiplicar XT por X
XTX <- XT %*% X
# Inversa de XTX
INV_XTX <- solve(XTX)
# Multiplicar XT por Y
XTY <- XT %*% Y
# Betas
BETAS <- INV_XTX %*% XTY
BETAS [,1]
[1,] -6.3493429
[2,] 0.5778966
[3,] -3.5913627
[4,] -0.5321791
[5,] 7.9712226
[6,] 16.4980316
Los valores obtenidos corresponden a los coeficientes estimados (\(\hat{\beta}\)) del modelo de regresión lineal múltiple, calculados mediante la expresión matricial \(\hat{\beta} = (X'X)^{-1}X'Y\). A partir de estos coeficientes, la ecuación del modelo de regresión estimado es:
\[ \hat{y} = -6.3493 + 0.5779\,x_1 - 3.5914\,x_2 - 0.5322\,x_3 + 7.9712\,x_4 + 16.4980\,x_5 \]
El intercepto es \(\hat{\beta}_0 = -6.3493\), y los coeficientes \(\hat{\beta}_1\) a \(\hat{\beta}_5\) representan el efecto de cada variable predictora sobre \(y\). Se observa que \(x_4\) y \(x_5\) ejercen la mayor influencia positiva, mientras que \(x_2\) muestra el efecto negativo más marcado.
2.Estimación de parámetros del modelo de regresión usando funciones R
Ecuacion
La ecuación del modelo estimado expresa la relación lineal entre la variable respuesta \(y\) y las variables regresoras \(x_1, x_2, x_3, x_4, x_5\), donde cada coeficiente representa el efecto promedio de su variable sobre \(y\), manteniendo las demás constantes:
\[ \hat{y} = -6.3493 + 0.5779\,x_1 - 3.5914\,x_2 - 0.5322\,x_3 + 7.9712\,x_4 + 16.4980\,x_5 \]
Codigo utilizado
modelo <- lm(y ~ x1 + x2 + x3 + x4 + x5, data = datos)
summary(modelo)
Call:
lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = datos)
Residuals:
Min 1Q Median 3Q Max
-1.3328 -0.3961 0.1064 0.4676 0.9901
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -6.3493 0.7736 -8.208 3.97e-07 ***
x1 0.5779 2.5815 0.224 0.82570
x2 -3.5914 2.5247 -1.423 0.17408
x3 -0.5322 2.4174 -0.220 0.82854
x4 7.9712 4.1023 1.943 0.06981 .
x5 16.4980 3.8361 4.301 0.00055 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.6845 on 16 degrees of freedom
Multiple R-squared: 0.9654, Adjusted R-squared: 0.9546
F-statistic: 89.33 on 5 and 16 DF, p-value: 4.127e-11
Interpretacion
La ecuación del modelo estimado es:
\[ \hat{y} = -6.3493 + 0.5779\,x_1 - 3.5914\,x_2 - 0.5322\,x_3 + 7.9712\,x_4 + 16.4980\,x_5 \]
El modelo explica el 96.5% de la variabilidad de \(y\) (\(R^2 = 0.9654\)) y es globalmente significativo (F = 89.33, p < 0.001). A nivel individual, solo \(x_5\) resulta significativa al 5%, mientras que \(x_1\), \(x_2\), \(x_3\) y \(x_4\) no aportan de forma significativa al modelo.