EXAMEN METODOS DE REGRESION

Actividad 1. Reconocimiento de la base de datos Ejecute los comandos iniciales de carga y exploración de la base USArrests. Luego responda los siguientes enunciados:

data("USArrests")
datos <- USArrests

head(datos)

##            Murder Assault UrbanPop Rape
## Alabama      13.2     236       58 21.2
## Alaska       10.0     263       48 44.5
## Arizona       8.1     294       80 31.0
## Arkansas      8.8     190       50 19.5
## California    9.0     276       91 40.6
## Colorado      7.9     204       78 38.7

str(datos)

## 'data.frame':    50 obs. of  4 variables:
##  $ Murder  : num  13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ...
##  $ Assault : int  236 263 294 190 276 204 110 238 335 211 ...
##  $ UrbanPop: int  58 48 80 50 91 78 77 72 80 60 ...
##  $ Rape    : num  21.2 44.5 31 19.5 40.6 38.7 11.1 15.8 31.9 25.8 ...

summary(datos)

##      Murder          Assault         UrbanPop          Rape      
##  Min.   : 0.800   Min.   : 45.0   Min.   :32.00   Min.   : 7.30  
##  1st Qu.: 4.075   1st Qu.:109.0   1st Qu.:54.50   1st Qu.:15.07  
##  Median : 7.250   Median :159.0   Median :66.00   Median :20.10  
##  Mean   : 7.788   Mean   :170.8   Mean   :65.54   Mean   :21.23  
##  3rd Qu.:11.250   3rd Qu.:249.0   3rd Qu.:77.75   3rd Qu.:26.18  
##  Max.   :17.400   Max.   :337.0   Max.   :91.00   Max.   :46.00

dim(datos)

## [1] 50  4

¿Cuántas observaciones y cuántas variables contiene la base de datos?

Hay un total de 50 observaciones y 4 variables que contiene la base de datos.

¿Qué representa cada fila de la base?

Cada fila representa un estado de Estados Unidos.

¿Qué tipo de variables contiene el conjunto de datos?

El conjunto de datos contiene variables cuantitativas numéricas.

¿Cuál será la variable dependiente del estudio y por qué?

La variable dependiente será Assault porque representa los arrestos por agresión y será la variable que se desea explicar.

¿Qué variables podrían utilizarse como predictoras en un modelo de regresión?

Las variables predictoras serán: Murder, UrbanPop, Rape .Estas variables podrían ayudar a explicar el comportamiento de Assault.

Actividad 2. Estadística descriptiva

Calcule medidas de tendencia central, dispersión, mínimo, máximo y rango para las variables cuantitativas de la base.

media <- apply(datos, 2, mean)
mediana <- apply(datos, 2, median)
desviacion <- apply(datos, 2, sd)
minimo <- apply(datos, 2, min)
maximo <- apply(datos, 2, max)
rango <- maximo - minimo

estadisticas <- data.frame(
  Media = media,
  Mediana = mediana,
  Desviacion = desviacion,
  Minimo = minimo,
  Maximo = maximo,
  Rango = rango
)

print(round(estadisticas,2))

##           Media Mediana Desviacion Minimo Maximo Rango
## Murder     7.79    7.25       4.36    0.8   17.4  16.6
## Assault  170.76  159.00      83.34   45.0  337.0 292.0
## UrbanPop  65.54   66.00      14.47   32.0   91.0  59.0
## Rape      21.23   20.10       9.37    7.3   46.0  38.7

summary(datos)

##      Murder          Assault         UrbanPop          Rape      
##  Min.   : 0.800   Min.   : 45.0   Min.   :32.00   Min.   : 7.30  
##  1st Qu.: 4.075   1st Qu.:109.0   1st Qu.:54.50   1st Qu.:15.07  
##  Median : 7.250   Median :159.0   Median :66.00   Median :20.10  
##  Mean   : 7.788   Mean   :170.8   Mean   :65.54   Mean   :21.23  
##  3rd Qu.:11.250   3rd Qu.:249.0   3rd Qu.:77.75   3rd Qu.:26.18  
##  Max.   :17.400   Max.   :337.0   Max.   :91.00   Max.   :46.00

Enunciados de análisis:

Interprete el promedio y la mediana de la variable Assault.

Esto indica que, en promedio los estados presentan aproximadamente 171 arrestos por agresión por cada 100000 habitantes y la mediana representa el valor central de Assault por lo que la mitad de los estados tiene valores menores y la otra mitad valores mayores.

Determine qué variable presenta mayor variabilidad y justifique su respuesta.

La variable con mayor variabilidad es Assault porque presenta la desviación estándar más alta con 83.34 esto significa que sus valores están más dispersos respecto al promedio.

Identifique posibles valores extremos a partir de los mínimos y máximos.

Se observan posibles valores extremos especialmente en Assault, donde el valor mínimo es 45 y el máximo es 337, mostrando una diferencia muy amplia entre estados.

Explique qué significa la desviación estándar de Assault en el contexto del caso.

La desviación estándar de Assault es 83.34, lo que significa que los valores de arrestos por agresión suelen alejarse aproximadamente 83 unidades respecto al promedio de 170.76.Esto refleja una alta dispersión en los niveles de agresión entre los estados analizados.

Redacte un párrafo descriptivo sobre el comportamiento general de la criminalidad observada en la base.

La base de datos muestra que hay diferencias en los niveles de criminalidad entre los estados de Estados Unidos. La variable Assault es la que más cambia entre estados, por lo que algunos tienen muchos más arrestos por agresión que otros. También Murder y Rape presentan diferencias grandes entre sus valores mínimos y máximos. En cambio, UrbanPop varía menos, así que el porcentaje de población urbana es más parecido entre los estados.

Actividad 3. Análisis gráfico exploratorio

Construya gráficos que permitan analizar la distribución de Assault y su relación con las variables UrbanPop, Murder y Rape.

par(mfrow=c(2,2))

# 1. Curva de densidad de Assault
plot(density(datos$Assault),
     main = "Densidad de Assault",
     xlab = "Assault",
     col = "blue",
     lwd = 3)

# 2. Assault vs UrbanPop con línea de regresión
plot(datos$UrbanPop, datos$Assault,
     main = "Relación Assault vs UrbanPop",
     xlab = "UrbanPop",
     ylab = "Assault",
     col = "darkgreen",
     pch = 16)

abline(lm(Assault ~ UrbanPop, data = datos),
       col = "red",
       lwd = 2)

# 3. Assault vs Murder con línea de regresión
plot(datos$Murder, datos$Assault,
     main = "Relación Assault vs Murder",
     xlab = "Murder",
     ylab = "Assault",
     col = "purple",
     pch = 16)

abline(lm(Assault ~ Murder, data = datos),
       col = "red",
       lwd = 2)

# 4. Assault vs Rape con línea de regresión
plot(datos$Rape, datos$Assault,
     main = "Relación Assault vs Rape",
     xlab = "Rape",
     ylab = "Assault",
     col = "orange",
     pch = 16)

abline(lm(Assault ~ Rape, data = datos),
       col = "red",
       lwd = 2)

Enunciados de análisis:

Describa la forma general de la distribución de Assault.

La distribución de Assault presenta una ligera asimetría hacia la derecha, ya que existen algunos estados con valores altos de arrestos por agresión y la mayoría de los estados se concentra en valores medios.

Explique si la relación visual entre UrbanPop y Assault parece débil, moderada o fuerte.

La relación visual entre UrbanPop y Assault esta entre débil a moderada, porque los puntos están dispersos y no siguen una línea muy clara.

Explique si la relación visual entre Murder y Assault parece positiva o negativa.

La relación entre Murder y Assault parece positiva, ya que cuando aumentan los valores de Murder también tienden a aumentar los valores de Assault.

Compare cuál de las relaciones observadas parece más adecuada para iniciar un modelo de regresión simple.

La relación entre Murder y Assault parece más adecuada para iniciar un modelo de regresión simple, porque muestra una tendencia más clara que la relación con UrbanPop.

Identifique posibles observaciones atípicas y explique cómo podrían afectar el modelo.

Se observan algunos estados con valores muy altos de Assault en comparación con el resto. Estas observaciones atípicas podrían afectar el modelo de regresión, modificando la pendiente y haciendo que los resultados sean menos precisos.

Actividad 4. Matriz de correlación

Calcule e interprete la matriz de correlación entre las variables cuantitativas.

# Matriz de correlaciones
correlaciones <- cor(datos)

# Librería
library(corrplot)

## Warning: package 'corrplot' was built under R version 4.4.3

## corrplot 0.95 loaded

# Gráfico de correlaciones
corrplot(correlaciones,
         method = "color",
         type = "upper",
         addCoef.col = "black",
         tl.col = "black",
         tl.srt = 45,
         title = "Mapa de calor de correlaciones",
         mar = c(0,0,2,0))

Enunciados de análisis:

Identifique la variable con mayor correlación positiva con Assault.

La variable con mayor correlación positiva con Assault es Murder, lo que indica que ambas variables tienden a aumentar juntas.

Determine si UrbanPop tiene una relación fuerte o débil con Assault.

UrbanPop tiene una relación de débil a moderada con Assault, ya que la correlación no es muy alta.

Analice si existe correlación relevante entre las variables independientes.

Sí existe cierta correlación entre algunas variables independientes, especialmente entre Murder y Rape. Esto puede ser importante porque una correlación muy alta entre variables predictoras podría generar problemas de multicolinealidad.

Explique por qué la correlación no implica necesariamente causalidad.

La correlación solo indica que dos variables están relacionadas, pero no demuestra que una cause cambios en la otra.

Argumente qué variables deberían incluirse inicialmente en el modelo múltiple.

Inicialmente deberían incluirse Murder, UrbanPop y Rape, porque todas pueden aportar información para explicar el comportamiento de Assault.

Actividad 5. Regresión lineal simple: modelo con UrbanPop

Ajuste un modelo de regresión lineal simple para explicar Assault a partir de UrbanPop. Modelo teórico: Assault_i = beta_0 + beta_1 UrbanPop_i + epsilon_i

modelo_simple_urban <- lm(Assault ~ UrbanPop,
                          data = datos)

summary(modelo_simple_urban)

## 
## Call:
## lm(formula = Assault ~ UrbanPop, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -150.78  -61.85  -18.68   58.05  196.85 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)  73.0766    53.8508   1.357   0.1811  
## UrbanPop      1.4904     0.8027   1.857   0.0695 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 81.33 on 48 degrees of freedom
## Multiple R-squared:  0.06701,    Adjusted R-squared:  0.04758 
## F-statistic: 3.448 on 1 and 48 DF,  p-value: 0.06948

coef(modelo_simple_urban)

## (Intercept)    UrbanPop 
##    73.07658     1.49044

b0 <- coef(modelo_simple_urban)[1]

b1 <- coef(modelo_simple_urban)[2]

cat("\nEcuación estimada:\n")

## 
## Ecuación estimada:

cat("Assault =",
    round(b0,4),
    "+",
    round(b1,4),
    "(UrbanPop)\n")

## Assault = 73.0766 + 1.4904 (UrbanPop)

plot(datos$UrbanPop,
     datos$Assault,
     main = "Regresión Assault vs UrbanPop",
     xlab = "UrbanPop",
     ylab = "Assault",
     col = "blue",
     pch = 16)

abline(modelo_simple_urban,
       col = "red",
       lwd = 2)

par(mfrow=c(2,2))

plot(modelo_simple_urban)

Enunciados de análisis:

Escriba la ecuación estimada del modelo.

La ecuación estimada tiene la forma: Assault = β0 +β1(UrbanPop)

Reemplazando con los coeficientes obtenidos en R: Assault = 73.0766 + 1.4904 (UrbanPop)

Interprete el intercepto del modelo, considerando si tiene sentido práctico en este contexto.

El intercepto es 73.0766 y significa que si la población urbana fuera 0%, el valor esperado de Assault sería 73.08 pero en la práctica no tiene mucho sentido, porque no existen lugares con 0% de población urbana. Por eso, el intercepto solo ayuda a formar la ecuación del modelo.

Interprete el coeficiente de UrbanPop.

El coeficiente de UrbanPop es 1.4904, lo que significa que por cada aumento de 1% en la población urbana, el valor esperado de Assault aumenta aproximadamente en 1.49 unidades es decir, a mayor porcentaje de población urbana, se espera un aumento en los casos de Assault según el modelo.

Determine si UrbanPop es estadísticamente significativo al 5%.

No, la variable UrbanPop no es estadísticamente significativa al 5%, porque su valor p = 0.0695 es mayor que 0.05 esto significa que no hay suficiente evidencia estadística para afirmar que UrbanPop influye significativamente en Assault con un nivel de confianza del 95%.

Interprete el R cuadrado del modelo.

El coeficiente de determinación R² = 0.06701 indica que el modelo explica aproximadamente el 6.7% de la variación de la variable Assault a partir de UrbanPop esto significa que la relación entre ambas variables es débil, ya que la mayor parte de la variación de Assault no es explicada por el porcentaje de población urbana.

Explique si este modelo es suficiente para explicar los arrestos por agresión.

No, este modelo no es suficiente para explicar los arrestos por agresión (Assault), porque el valor de R² es muy bajo (6.7%) y además la variable UrbanPop no es significativa al 5% esto indica que el porcentaje de población urbana explica muy poco la variación de Assault, por lo que probablemente existen otras variables más importantes que influyen en los arrestos por agresión.

Actividad 6. Regresión lineal simple alternativa: modelo con Murder

Ajuste un segundo modelo simple para explicar Assault a partir de Murder. modelo_simple_murder <- lm(Assault ~ Murder, data = datos) summary(modelo_simple_murder)

regre_simple <- lm(Assault ~ Murder,
                           data = datos)
summary(regre_simple)

## 
## Call:
## lm(formula = Assault ~ Murder, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -107.24  -36.35   -3.67   32.15  118.45 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    51.27      14.69   3.490  0.00105 ** 
## Murder         15.34       1.65   9.298  2.6e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 50.31 on 48 degrees of freedom
## Multiple R-squared:  0.643,  Adjusted R-squared:  0.6356 
## F-statistic: 86.45 on 1 and 48 DF,  p-value: 2.596e-12

coef(regre_simple)

## (Intercept)      Murder 
##    51.26932    15.34292

b0 <- coef(regre_simple)[1]

b1 <- coef(regre_simple)[2]

cat("\nEcuación estimada:\n")

## 
## Ecuación estimada:

cat("Assault =",
    round(b0,4),
    "+",
    round(b1,4),
    "(Murder)\n")

## Assault = 51.2693 + 15.3429 (Murder)

plot(datos$Murder,
     datos$Assault,
     main = "Regresión Assault vs Murder",
     xlab = "Murder",
     ylab = "Assault",
     col = "red",
     pch = 16)

abline(regre_simple,
       col = "blue",
       lwd = 2)

par(mfrow=c(2,2))

plot(regre_simple)

Enunciados de análisis:

Escriba la ecuación estimada del modelo.

La ecuación estimada tiene la forma: Assault = β0 + β1(Murder)

Reemplazando con los coeficientes obtenidos:

Assault = 51.2693 + 15.3429 (Murder)

Interprete el coeficiente de Murder.

El coeficiente de Murder es 15.3429, lo que indica que, en promedio, por cada aumento de 1 unidad en la tasa de Murder, la variable Assault aumenta aproximadamente en 15.34 unidades.

Determine si Murder es estadísticamente significativo al 5%.

Murder es estadísticamente significativa al 5% porque el p-value del coeficiente es menor a 0.05.

Compare el R cuadrado de este modelo con el modelo que usa UrbanPop.

El modelo que utiliza Murder presenta un R2=0.643, lo que significa que explica el 64.3% de la variabilidad de Assault.Si se compara con el modelo que utiliza UrbanPop, el modelo con Murder posee un mayor poder explicativo, ya que presenta un coeficiente de determinación más alto.

Explique cuál modelo simple resulta más conveniente desde el punto de vista estadístico y contextual

El modelo simple que utiliza la variable Murder resulta más conveniente ya que estadísticamente, presenta un R2 más alto y un p-value altamente significativo, lo que indica una relación fuerte con Assault.

Actividad 7. Comparación de modelos simples

Compare los modelos simples utilizando R cuadrado, R cuadrado ajustado, AIC y BIC. summary(modelo_simple_urban)\(r.squared summary(modelo_simple_murder)\)r.squared summary(modelo_simple_urban)\(adj.r.squared summary(modelo_simple_murder)\)adj.r.squared AIC(modelo_simple_urban, modelo_simple_murder) BIC(modelo_simple_urban, modelo_simple_murder)

reg_simple_urban <- lm(Assault ~ UrbanPop,
                          data = datos)

reg_simple_murder <- lm(Assault ~ Murder,
                           data = datos)

summary(reg_simple_urban)$r.squared

## [1] 0.06701456

summary(reg_simple_urban)$adj.r.squared

## [1] 0.04757736

summary(reg_simple_murder)$r.squared

## [1] 0.6430008

summary(reg_simple_murder)$adj.r.squared

## [1] 0.6355633

AIC(reg_simple_urban,
    reg_simple_murder)

##                   df      AIC
## reg_simple_urban   3 585.7055
## reg_simple_murder  3 537.6727

BIC(reg_simple_urban,
    reg_simple_murder)

##                   df      BIC
## reg_simple_urban   3 591.4416
## reg_simple_murder  3 543.4088

Enunciados de análisis:

Indique cuál modelo tiene mayor R cuadrado.

El modelo que utiliza Murder tiene un R cuadrado mayor que el modelo con UrbanPop, por lo que explica mejor la variabilidad de Assault.

Indique cuál modelo tiene menor AIC y menor BIC.

El modelo con Murder presenta menores valores de AIC y BIC, lo que indica un mejor ajuste comparado con el modelo de UrbanPop.

Explique si el mejor modelo debe elegirse únicamente por criterios numéricos.

El mejor modelo no debe elegirse únicamente por criterios numéricos. También es importante considerar el contexto del problema, la interpretación de las variables y si el modelo tiene sentido práctico.

Argumente qué modelo simple recomendaría para una primera aproximación del problema.

Para una primera aproximación del problema se recomendaría el modelo con Murder, porque presenta una relación más fuerte con Assault y mejores indicadores estadísticos.

Mencione al menos dos limitaciones de trabajar solo con regresión simple.

Solo analiza el efecto de una variable independiente sobre la variable respuesta.
Puede omitir variables importantes que también influyen en el comportamiento de Assault.

Actividad 8. Regresión lineal múltiple

Ajuste un modelo de regresión lineal múltiple para explicar Assault a partir de Murder, UrbanPop y Rape. modelo_multiple <- lm(Assault ~ Murder + UrbanPop + Rape, data = datos) summary(modelo_multiple) Modelo teórico:Assault_i = beta_0 + beta_1 Murder_i + beta_2 UrbanPop_i + beta_3 Rape_i + epsilon_i

regre_multiple <- lm(Assault ~ Murder +
                        UrbanPop +
                        Rape,
                      data = datos)
summary(regre_multiple)

## 
## Call:
## lm(formula = Assault ~ Murder + UrbanPop + Rape, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -102.420  -21.226   -4.897   21.999  125.744 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -15.4520    31.8581  -0.485   0.6300    
## Murder       12.4700     1.8533   6.729 2.33e-08 ***
## UrbanPop      0.6304     0.5054   1.247   0.2186    
## Rape          2.2502     0.9432   2.386   0.0212 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 45.58 on 46 degrees of freedom
## Multiple R-squared:  0.7192, Adjusted R-squared:  0.7009 
## F-statistic: 39.27 on 3 and 46 DF,  p-value: 9.678e-13

coef(regre_multiple)

## (Intercept)      Murder    UrbanPop        Rape 
## -15.4519952  12.4700264   0.6304476   2.2501833

b0 <- coef(regre_multiple)[1]

b1 <- coef(regre_multiple)[2]

b2 <- coef(regre_multiple)[3]

b3 <- coef(regre_multiple)[4]

cat("\nEcuación estimada:\n")

## 
## Ecuación estimada:

cat("Assault =",
    round(b0,4), "+",
    round(b1,4), "(Murder) +",
    round(b2,4), "(UrbanPop) +",
    round(b3,4), "(Rape)\n")

## Assault = -15.452 + 12.47 (Murder) + 0.6304 (UrbanPop) + 2.2502 (Rape)

par(mfrow=c(2,2))

Enunciados de análisis:

Escriba la ecuación estimada del modelo múltiple.

La ecuación estimada tiene la forma: Assault = β0 + β1(Murder) + β2(UrbanPop) + β3(Rape)

Reemplazando con los coeficientes obtenidos en R: Assault = -15.452 + 12.47 (Murder) + 0.6304 (UrbanPop) + 2.2502 (Rape)

Interprete el coeficiente de Murder manteniendo constantes UrbanPop y Rape.

Manteniendo constantes las variables UrbanPop y Rape, por cada aumento de 1 unidad en Murder, la variable Assault aumenta en promedio aproximadamente 12.47 unidades.

Esto indica que existe una relación positiva entre Murder y Assault cuando las demás variables permanecen constantes.

Interprete el coeficiente de UrbanPop manteniendo constantes las demás variables.

Manteniendo constantes Murder y Rape, por cada aumento de 1 unidad en UrbanPop, la variable Assault aumenta en promedio aproximadamente 0.63 unidades.

Esto sugiere una relación positiva, aunque relativamente débil, entre el porcentaje de población urbana y los arrestos por agresión.

Interprete el coeficiente de Rape manteniendo constantes Murder y UrbanPop.

Manteniendo constantes Murder y UrbanPop, por cada aumento de 1 unidad en Rape, la variable Assault aumenta en promedio aproximadamente 2.25 unidades.

Determine qué variables son estadísticamente significativas al 5%.

Una variable es estadísticamente significativa al 5% cuando su p-value es menor que 0.05.

En este modelo:

Murder es significativa, ya que su p-value es 2.33×10−8 Rape también es significativa, ya que su p-value es 0.0212. UrbanPop no es significativa al 5%, porque su p-value es 0.2186, valor mayor que 0.05.

Por lo tanto, las variables significativas en el modelo son Murder y Rape.

Interprete el R cuadrado y el R cuadrado ajustado del modelo múltiple.

El coeficiente de determinación R2=0.7192 indica que el 71.92% de la variabilidad de Assault es explicada conjuntamente por las variables Murder, UrbanPop y Rape.

Por otro lado, el R2ajustado es 0.7009, lo que significa que, después de considerar la cantidad de variables incluidas en el modelo, aproximadamente el 70.09% de la variabilidad sigue siendo explicada por el modelo.

Compare el modelo múltiple con los modelos simples y determine cuál ofrece mejor explicación estadística.

El modelo múltiple ofrece una mejor explicación estadística que los modelos simples, debido a que presenta un R2más alto y considera simultáneamente varias variables relacionadas con Assault.

Mientras los modelos simples explican la variabilidad utilizando una sola variable, el modelo múltiple incorpora más información y logra explicar mejor el comportamiento de la variable respuesta.

Explique si todos los coeficientes tienen signos coherentes con el contexto analizado.

Sí, todos los coeficientes presentan signos positivos y coherentes con el contexto analizado.

Esto significa que un incremento en las variables Murder, UrbanPop y Rape se asocia con un aumento en los arrestos por Assault. En especial, las variables relacionadas con criminalidad (Murder y Rape) muestran relaciones positivas esperadas con la variable respuesta.

Actividad 9. Evaluación de supuestos del modelo múltiple Evalúe los supuestos básicos del modelo de regresión lineal múltiple mediante gráficos y pruebas estadísticas.

# Librerías
library(lmtest)

## Warning: package 'lmtest' was built under R version 4.4.3

## Cargando paquete requerido: zoo

## Warning: package 'zoo' was built under R version 4.4.3

## 
## Adjuntando el paquete: 'zoo'

## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

library(car)

## Warning: package 'car' was built under R version 4.4.3

## Cargando paquete requerido: carData

## Warning: package 'carData' was built under R version 4.4.3

# Modelo
regre_multiple <- lm(Assault ~ Murder +
                        UrbanPop +
                        Rape,
                     data = datos)

summary(regre_multiple)

## 
## Call:
## lm(formula = Assault ~ Murder + UrbanPop + Rape, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -102.420  -21.226   -4.897   21.999  125.744 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -15.4520    31.8581  -0.485   0.6300    
## Murder       12.4700     1.8533   6.729 2.33e-08 ***
## UrbanPop      0.6304     0.5054   1.247   0.2186    
## Rape          2.2502     0.9432   2.386   0.0212 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 45.58 on 46 degrees of freedom
## Multiple R-squared:  0.7192, Adjusted R-squared:  0.7009 
## F-statistic: 39.27 on 3 and 46 DF,  p-value: 9.678e-13

# Gráficos de diagnóstico
par(mfrow=c(2,2))
plot(regre_multiple)

# Residuos
residuos <- resid(regre_multiple)

# Normalidad
shapiro.test(residuos)

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.9725, p-value = 0.2915

# Homocedasticidad
bptest(regre_multiple)

## 
##  studentized Breusch-Pagan test
## 
## data:  regre_multiple
## BP = 4.6168, df = 3, p-value = 0.2021

# Multicolinealidad
vif(regre_multiple)

##   Murder UrbanPop     Rape 
## 1.536825 1.262276 1.840863

Enunciados de análisis:

Analice gráficamente si los residuos presentan un patrón aleatorio.

En el gráfico Residuals vs Fitted los residuos se distribuyen alrededor de la línea horizontal en cero sin presentar un patrón claramente definido. Aunque existe una ligera curvatura en la línea roja, no se observa una estructura fuerte que indique problemas graves de linealidad.

Por lo tanto, puede considerarse que los residuos presentan un comportamiento aproximadamente aleatorio y que el modelo lineal resulta adecuado.

Interprete la prueba de Shapiro-Wilk para normalidad de residuos.

La prueba de Shapiro-Wilk obtuvo un p-value de 0.2915. Como este valor es mayor que 0.05, no se rechaza la hipótesis nula de normalidad.

Además, en el gráfico Q-Q Residuals los puntos siguen relativamente la línea de referencia, aunque existen pequeñas desviaciones en los extremos. Esto indica que los residuos pueden considerarse aproximadamente normales.

Interprete la prueba de Breusch-Pagan para homocedasticidad.

La prueba de Breusch-Pagan arrojó un p-value de 0.2021. Dado que este valor es mayor a 0.05, no existe evidencia suficiente para rechazar la hipótesis de homocedasticidad.

En el gráfico Scale-Location se observa una dispersión relativamente constante de los residuos, aunque con una leve tendencia creciente. Sin embargo, esta variación no parece suficientemente fuerte como para indicar heterocedasticidad severa.

Interprete los valores VIF y determine si existe multicolinealidad relevante.

Los valores VIF fueron: Murder = 1.54 UrbanPop = 1.26 Rape = 1.84 Como todos los valores son menores a 5, no existe multicolinealidad relevante entre las variables independientes.

Identifique si existen observaciones influyentes en los gráficos de diagnóstico.

En el gráfico Residuals vs Leverage se identifican algunas observaciones potencialmente influyentes, como North Carolina, Rhode Island y Georgia, ya que presentan valores relativamente altos de leverage o residuos estandarizados.

Sin embargo, ninguna observación supera claramente las líneas de distancia de Cook, por lo que no parecen existir puntos extremadamente influyentes que afecten gravemente el ajuste del modelo.

Redacte una conclusión general sobre el cumplimiento de los supuestos del modelo.

En general, el modelo de regresión lineal múltiple cumple adecuadamente los supuestos principales. Los residuos presentan un comportamiento aproximadamente aleatorio y normal, no existe evidencia significativa de heterocedasticidad y tampoco se detecta multicolinealidad importante entre las variables independientes.

Aunque existen algunas observaciones con cierta influencia, estas no afectan de forma severa la estabilidad del modelo. Por ello, el modelo puede considerarse estadísticamente adecuado para explicar la variabilidad de la variable Assault.

Actividad 10. Predicción e interpretación aplicada

Utilice el modelo múltiple para estimar el nivel esperado de arrestos por agresión en un estado hipotético con las siguientes características: Murder = 8, UrbanPop = 70 y Rape = 25. nuevo_estado <- data.frame( Murder = 8, UrbanPop = 70, Rape = 25 ) predict(modelo_multiple, nuevo_estado, interval = “confidence”) predict(modelo_multiple, nuevo_estado, interval = “prediction”)

modelo_multiple <- lm(Assault ~ Murder +
                        UrbanPop +
                        Rape,
                      data = datos)

summary(modelo_multiple)

## 
## Call:
## lm(formula = Assault ~ Murder + UrbanPop + Rape, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -102.420  -21.226   -4.897   21.999  125.744 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -15.4520    31.8581  -0.485   0.6300    
## Murder       12.4700     1.8533   6.729 2.33e-08 ***
## UrbanPop      0.6304     0.5054   1.247   0.2186    
## Rape          2.2502     0.9432   2.386   0.0212 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 45.58 on 46 degrees of freedom
## Multiple R-squared:  0.7192, Adjusted R-squared:  0.7009 
## F-statistic: 39.27 on 3 and 46 DF,  p-value: 9.678e-13

nuevo_estado <- data.frame(
  Murder = 8,
  UrbanPop = 70,
  Rape = 25
)
predict(modelo_multiple,
        nuevo_estado,
        interval = "confidence")

##        fit      lwr      upr
## 1 184.6941 170.3306 199.0577

predict(modelo_multiple,
        nuevo_estado,
        interval = "prediction")

##        fit      lwr      upr
## 1 184.6941 91.83006 277.5582

Enunciados de análisis:

Reporte la predicción puntual obtenida para Assault.

La predicción puntual obtenida para Assault es 184.69.

Esto significa que, para un estado con valores de Murder = 8, UrbanPop = 70 y Rape = 25, el modelo estima aproximadamente 185 arrestos por agresión por cada 100000 habitantes.

Interprete el intervalo de confianza.

El intervalo de confianza al 95% para la media de Assault va desde 170.33 hasta 199.06.

Esto significa que, con un 95% de confianza, el promedio real de arrestos por agresión para estados con características similares se encuentra dentro de ese rango.

Interprete el intervalo de predicción.

El intervalo de predicción al 95% va desde 91.83 hasta 277.56.

Esto indica que un estado individual con valores de Murder = 8, UrbanPop = 70 y Rape = 25 podría presentar un valor de Assault dentro de ese intervalo.

El rango es más amplio porque considera la variabilidad individual de las observaciones.

Explique la diferencia entre intervalo de confianza e intervalo de predicción.

El intervalo de confianza se utiliza para estimar el valor promedio esperado de Assault para estados con características similares.

En cambio, el intervalo de predicción estima el posible valor de una observación individual futura.

Por esta razón, el intervalo de predicción es más amplio que el intervalo de confianza, ya que incorpora tanto la variabilidad del promedio como la variabilidad individual de los datos.

Explique cómo podría usar esta predicción una empresa multinacional dedicada al análisis de riesgo.

Una empresa multinacional dedicada al análisis de riesgo podría utilizar estas predicciones para identificar estados con mayores niveles esperados de criminalidad y violencia. Esta información permitiría evaluar riesgos antes de realizar inversiones, abrir sucursales o establecer operaciones comerciales. Además, podría servir para planificar medidas de seguridad, costos de seguros y estrategias de expansión en diferentes regiones.

EXAMEN METODOS DE REGRESION

Salome Merchan y Kevin Mariño

2026-05-08