Estimación de parámetros modelo de regresión lineal múltiple.

Author

Shaday Nicoll Berastegui guzman ID:0005136, Diego De leon Altamiranda ID:000491648, Andrea Guzman Gomez ID:000511622, Luis Alfonson Jimenez Acosta ID:000524988, Edwin André Rios meza ID:000519582

Published

April 25, 2026

1: Estimación de parámetros del modelo de regresión de manera matricial

Ecuaciones

Se definen los elementos del modelo en su forma matricial de la siguiente manera:

\[ \underset{n \times 1}{Y} = \begin{bmatrix} Y_1 \\ Y_2 \\ Y_3 \\ \vdots \\ Y_n \end{bmatrix} \; ; \; \underset{n \times 2}{X} = \begin{bmatrix} 1 & X_1 \\ 1 & X_2 \\ 1 & X_3 \\ \vdots & \vdots \\ 1 & X_n \end{bmatrix} \; ; \; \underset{2 \times 1}{\beta} = \begin{bmatrix} \beta_0 \\ \beta_1 \end{bmatrix} \; ; \; \underset{n \times 1}{\epsilon} = \begin{bmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_n \end{bmatrix} \tag{1}\]

Transpuestas de X

La traspuesta de una matriz \(A\) es otra matriz, denotada \(X'\) o \(X^T\), que se obtiene intercambiando las filas y las columnas de la matriz \(X\).

Sea \(X = [x_{ij}]\), la matriz traspuesta de \(X\) es igual a:

\[ X' = [x_{ji}] \tag{2}\]

XT POR X

Sea la matriz \(XT = [XT_{ij}]\) con dimensiones \(r \times c\) y la matriz \(X = [X_{ij}]\) con dimensiones \(c \times s\), el producto $XTX es una matriz de dimensiones \(r \times s\) cuyos elementos de la fila \(i\) y la columna \(j\) son:

\[ \sum_{k=1}^{c} XT_{ik} X_{kj} \]

Por lo tanto:

\[ XTX_{r \times s} = \left[ \sum_{k=1}^{c} XT_{ik} X_{kj} \right] \; ; \; i = 1, \ldots, r \; ; \; j = 1, \ldots, s \]

Por ejemplo, sea la matriz \(XT\):

\[ XT= \begin{bmatrix} 2 & 5 \\ 4 & 1 \end{bmatrix} \]

Y la matriz \(X\):

\[ X = \begin{bmatrix} 4 & 6 \\ 5 & 8 \end{bmatrix} \]

La matriz \(XTX\) está dada por:

\[ XTX = \begin{bmatrix} (2 \times 4) + (5 \times 5) & (2 \times 6) + (5 \times 8) \\ (4 \times 4) + (1 \times 5) & (4 \times 6) + (1 \times 8) \end{bmatrix} \quad XTX = \begin{bmatrix} 33 & 52 \\ 21 & 32 \end{bmatrix} \]


Inversa de XTX

La inversa de la matriz \(XTX\) cuadrada, es otra matriz denotada \(XTX^{-1}\) que cumple:

\[ A^{-1}A = AA^{-1} = I \]

La inversa de una matriz \(A_{2 \times 2}\) se calcula de la siguiente manera:

\[ A = \begin{bmatrix} a & b \\ c & d \end{bmatrix} \quad A^{-1} = \frac{1}{ad - bc} \begin{bmatrix} d & -b \\ -c & a \end{bmatrix} \]

\[ ad - bc \]


XT POR Y

Sea la matriz \(XT = [XT_{ij}]\) con dimensiones \(r \times c\) y la matriz \(Y = [Y_{ij}]\) con dimensiones \(c \times s\), el producto $XTX es una matriz de dimensiones \(r \times s\) cuyos elementos de la fila \(i\) y la columna \(j\) son:

\[ \sum_{k=1}^{c} XT_{ik} Y_{kj} \]

Por lo tanto:

\[ XTY_{r \times s} = \left[ \sum_{k=1}^{c} XT_{ik} Y_{kj} \right] \; ; \; i = 1, \ldots, r \; ; \; j = 1, \ldots, s \]


BETAS

El modelo de regresión lineal múltiple se expresa como :

\[ y_i = \sum_{k=0}^{p-1} \beta_k x_{ik} + \epsilon_i \tag{3}\]

Donde \(\beta_k\) son los parámetros, \(x_{ik}\) las variables predictoras (con \(x_{i0} = 1\)) y \(\epsilon_i \sim N(0, \sigma^2)\) los errores independientes, con \(i = 1, \ldots, n\).


Codigo utilizado

library(readxl)
datos <- read_excel("C:/Users/EQUIPO/Downloads/Datos (3).xlsx")
# Variables
y  <- datos$y
x1 <- datos$x1
x2 <- datos$x2
x3 <- datos$x3
x4 <- datos$x4
x5 <- datos$x5

# Matriz Y
Y <- matrix(c(y), nrow = length(y), ncol = 1)

# Matriz X
X <- matrix(c(rep(1, 22), x1, x2, x3, x4, x5), nrow = length(y), ncol = 6)

# Transpuesta de X
XT <- t(X)

# Multiplicar XT por X
XTX <- XT %*% X

# Inversa de XTX
INV_XTX <- solve(XTX)

# Multiplicar XT por Y
XTY <- XT %*% Y

# Betas
BETAS <- INV_XTX %*% XTY
BETAS
           [,1]
[1,] -6.3493429
[2,]  0.5778966
[3,] -3.5913627
[4,] -0.5321791
[5,]  7.9712226
[6,] 16.4980316

Los valores obtenidos corresponden a los coeficientes estimados (\(\hat{\beta}\)) del modelo de regresión lineal múltiple, calculados mediante la expresión matricial \(\hat{\beta} = (X'X)^{-1}X'Y\). A partir de estos coeficientes, la ecuación del modelo de regresión estimado es:

\[ \hat{y} = -6.3493 + 0.5779\,x_1 - 3.5914\,x_2 - 0.5322\,x_3 + 7.9712\,x_4 + 16.4980\,x_5 \]

El intercepto es \(\hat{\beta}_0 = -6.3493\), y los coeficientes \(\hat{\beta}_1\) a \(\hat{\beta}_5\) representan el efecto de cada variable predictora sobre \(y\). Se observa que \(x_4\) y \(x_5\) ejercen la mayor influencia positiva, mientras que \(x_2\) muestra el efecto negativo más marcado.


2.Estimación de parámetros del modelo de regresión usando funciones R

Ecuacion

La ecuación del modelo estimado expresa la relación lineal entre la variable respuesta \(y\) y las variables regresoras \(x_1, x_2, x_3, x_4, x_5\), donde cada coeficiente representa el efecto promedio de su variable sobre \(y\), manteniendo las demás constantes:

\[ \hat{y} = -6.3493 + 0.5779\,x_1 - 3.5914\,x_2 - 0.5322\,x_3 + 7.9712\,x_4 + 16.4980\,x_5 \]

Codigo utilizado

modelo <- lm(y ~ x1 + x2 + x3 + x4 + x5, data = datos)
summary(modelo)

Call:
lm(formula = y ~ x1 + x2 + x3 + x4 + x5, data = datos)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.3328 -0.3961  0.1064  0.4676  0.9901 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -6.3493     0.7736  -8.208 3.97e-07 ***
x1            0.5779     2.5815   0.224  0.82570    
x2           -3.5914     2.5247  -1.423  0.17408    
x3           -0.5322     2.4174  -0.220  0.82854    
x4            7.9712     4.1023   1.943  0.06981 .  
x5           16.4980     3.8361   4.301  0.00055 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.6845 on 16 degrees of freedom
Multiple R-squared:  0.9654,    Adjusted R-squared:  0.9546 
F-statistic: 89.33 on 5 and 16 DF,  p-value: 4.127e-11

Interpretacion

La ecuación del modelo estimado es:

\[ \hat{y} = -6.3493 + 0.5779\,x_1 - 3.5914\,x_2 - 0.5322\,x_3 + 7.9712\,x_4 + 16.4980\,x_5 \]

El modelo explica el 96.5% de la variabilidad de \(y\) (\(R^2 = 0.9654\)) y es globalmente significativo (F = 89.33, p < 0.001). A nivel individual, solo \(x_5\) resulta significativa al 5%, mientras que \(x_1\), \(x_2\), \(x_3\) y \(x_4\) no aportan de forma significativa al modelo.