Actividad 1. Reconocimiento de la base de datos Ejecute los comandos iniciales de carga y exploración de la base USArrests. Luego responda los siguientes enunciados:
data("USArrests")
datos <- USArrests
head(datos)
## Murder Assault UrbanPop Rape
## Alabama 13.2 236 58 21.2
## Alaska 10.0 263 48 44.5
## Arizona 8.1 294 80 31.0
## Arkansas 8.8 190 50 19.5
## California 9.0 276 91 40.6
## Colorado 7.9 204 78 38.7
str(datos)
## 'data.frame': 50 obs. of 4 variables:
## $ Murder : num 13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ...
## $ Assault : int 236 263 294 190 276 204 110 238 335 211 ...
## $ UrbanPop: int 58 48 80 50 91 78 77 72 80 60 ...
## $ Rape : num 21.2 44.5 31 19.5 40.6 38.7 11.1 15.8 31.9 25.8 ...
summary(datos)
## Murder Assault UrbanPop Rape
## Min. : 0.800 Min. : 45.0 Min. :32.00 Min. : 7.30
## 1st Qu.: 4.075 1st Qu.:109.0 1st Qu.:54.50 1st Qu.:15.07
## Median : 7.250 Median :159.0 Median :66.00 Median :20.10
## Mean : 7.788 Mean :170.8 Mean :65.54 Mean :21.23
## 3rd Qu.:11.250 3rd Qu.:249.0 3rd Qu.:77.75 3rd Qu.:26.18
## Max. :17.400 Max. :337.0 Max. :91.00 Max. :46.00
dim(datos)
## [1] 50 4
Hay un total de 50 observaciones y 4 variables que contiene la base de datos.
Cada fila representa un estado de Estados Unidos.
El conjunto de datos contiene variables cuantitativas numéricas.
La variable dependiente será Assault porque representa los arrestos por agresión y será la variable que se desea explicar.
Las variables predictoras serán: Murder, UrbanPop, Rape .Estas variables podrían ayudar a explicar el comportamiento de Assault.
Actividad 2. Estadística descriptiva
Calcule medidas de tendencia central, dispersión, mínimo, máximo y rango para las variables cuantitativas de la base.
media <- apply(datos, 2, mean)
mediana <- apply(datos, 2, median)
desviacion <- apply(datos, 2, sd)
minimo <- apply(datos, 2, min)
maximo <- apply(datos, 2, max)
rango <- maximo - minimo
estadisticas <- data.frame(
Media = media,
Mediana = mediana,
Desviacion = desviacion,
Minimo = minimo,
Maximo = maximo,
Rango = rango
)
print(round(estadisticas,2))
## Media Mediana Desviacion Minimo Maximo Rango
## Murder 7.79 7.25 4.36 0.8 17.4 16.6
## Assault 170.76 159.00 83.34 45.0 337.0 292.0
## UrbanPop 65.54 66.00 14.47 32.0 91.0 59.0
## Rape 21.23 20.10 9.37 7.3 46.0 38.7
summary(datos)
## Murder Assault UrbanPop Rape
## Min. : 0.800 Min. : 45.0 Min. :32.00 Min. : 7.30
## 1st Qu.: 4.075 1st Qu.:109.0 1st Qu.:54.50 1st Qu.:15.07
## Median : 7.250 Median :159.0 Median :66.00 Median :20.10
## Mean : 7.788 Mean :170.8 Mean :65.54 Mean :21.23
## 3rd Qu.:11.250 3rd Qu.:249.0 3rd Qu.:77.75 3rd Qu.:26.18
## Max. :17.400 Max. :337.0 Max. :91.00 Max. :46.00
Enunciados de análisis:
Esto indica que, en promedio los estados presentan aproximadamente 171 arrestos por agresión por cada 100000 habitantes y la mediana representa el valor central de Assault por lo que la mitad de los estados tiene valores menores y la otra mitad valores mayores.
La variable con mayor variabilidad es Assault porque presenta la desviación estándar más alta con 83.34 esto significa que sus valores están más dispersos respecto al promedio.
Se observan posibles valores extremos especialmente en Assault, donde el valor mínimo es 45 y el máximo es 337, mostrando una diferencia muy amplia entre estados.
La desviación estándar de Assault es 83.34, lo que significa que los valores de arrestos por agresión suelen alejarse aproximadamente 83 unidades respecto al promedio de 170.76.Esto refleja una alta dispersión en los niveles de agresión entre los estados analizados.
La base de datos muestra que hay diferencias en los niveles de criminalidad entre los estados de Estados Unidos. La variable Assault es la que más cambia entre estados, por lo que algunos tienen muchos más arrestos por agresión que otros. También Murder y Rape presentan diferencias grandes entre sus valores mínimos y máximos. En cambio, UrbanPop varía menos, así que el porcentaje de población urbana es más parecido entre los estados.
Actividad 3. Análisis gráfico exploratorio
Construya gráficos que permitan analizar la distribución de Assault y su relación con las variables UrbanPop, Murder y Rape.
par(mfrow=c(2,2))
# 1. Curva de densidad de Assault
plot(density(datos$Assault),
main = "Densidad de Assault",
xlab = "Assault",
col = "blue",
lwd = 3)
# 2. Assault vs UrbanPop con línea de regresión
plot(datos$UrbanPop, datos$Assault,
main = "Relación Assault vs UrbanPop",
xlab = "UrbanPop",
ylab = "Assault",
col = "darkgreen",
pch = 16)
abline(lm(Assault ~ UrbanPop, data = datos),
col = "red",
lwd = 2)
# 3. Assault vs Murder con línea de regresión
plot(datos$Murder, datos$Assault,
main = "Relación Assault vs Murder",
xlab = "Murder",
ylab = "Assault",
col = "purple",
pch = 16)
abline(lm(Assault ~ Murder, data = datos),
col = "red",
lwd = 2)
# 4. Assault vs Rape con línea de regresión
plot(datos$Rape, datos$Assault,
main = "Relación Assault vs Rape",
xlab = "Rape",
ylab = "Assault",
col = "orange",
pch = 16)
abline(lm(Assault ~ Rape, data = datos),
col = "red",
lwd = 2)
Enunciados de análisis:
La distribución de Assault presenta una ligera asimetría hacia la derecha, ya que existen algunos estados con valores altos de arrestos por agresión y la mayoría de los estados se concentra en valores medios.
La relación visual entre UrbanPop y Assault esta entre débil a moderada, porque los puntos están dispersos y no siguen una línea muy clara.
La relación entre Murder y Assault parece positiva, ya que cuando aumentan los valores de Murder también tienden a aumentar los valores de Assault.
La relación entre Murder y Assault parece más adecuada para iniciar un modelo de regresión simple, porque muestra una tendencia más clara que la relación con UrbanPop.
Se observan algunos estados con valores muy altos de Assault en comparación con el resto. Estas observaciones atípicas podrían afectar el modelo de regresión, modificando la pendiente y haciendo que los resultados sean menos precisos.
Actividad 4. Matriz de correlación
Calcule e interprete la matriz de correlación entre las variables cuantitativas.
# Matriz de correlaciones
correlaciones <- cor(datos)
# Librería
library(corrplot)
## Warning: package 'corrplot' was built under R version 4.4.3
## corrplot 0.95 loaded
# Gráfico de correlaciones
corrplot(correlaciones,
method = "color",
type = "upper",
addCoef.col = "black",
tl.col = "black",
tl.srt = 45,
title = "Mapa de calor de correlaciones",
mar = c(0,0,2,0))
Enunciados de análisis:
La variable con mayor correlación positiva con Assault es Murder, lo que indica que ambas variables tienden a aumentar juntas.
UrbanPop tiene una relación de débil a moderada con Assault, ya que la correlación no es muy alta.
Sí existe cierta correlación entre algunas variables independientes, especialmente entre Murder y Rape. Esto puede ser importante porque una correlación muy alta entre variables predictoras podría generar problemas de multicolinealidad.
La correlación solo indica que dos variables están relacionadas, pero no demuestra que una cause cambios en la otra.
Inicialmente deberían incluirse Murder, UrbanPop y Rape, porque todas pueden aportar información para explicar el comportamiento de Assault.
Actividad 5. Regresión lineal simple: modelo con UrbanPop
Ajuste un modelo de regresión lineal simple para explicar Assault a partir de UrbanPop. Modelo teórico: Assault_i = beta_0 + beta_1 UrbanPop_i + epsilon_i
modelo_simple_urban <- lm(Assault ~ UrbanPop,
data = datos)
summary(modelo_simple_urban)
##
## Call:
## lm(formula = Assault ~ UrbanPop, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -150.78 -61.85 -18.68 58.05 196.85
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 73.0766 53.8508 1.357 0.1811
## UrbanPop 1.4904 0.8027 1.857 0.0695 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 81.33 on 48 degrees of freedom
## Multiple R-squared: 0.06701, Adjusted R-squared: 0.04758
## F-statistic: 3.448 on 1 and 48 DF, p-value: 0.06948
coef(modelo_simple_urban)
## (Intercept) UrbanPop
## 73.07658 1.49044
b0 <- coef(modelo_simple_urban)[1]
b1 <- coef(modelo_simple_urban)[2]
cat("\nEcuación estimada:\n")
##
## Ecuación estimada:
cat("Assault =",
round(b0,4),
"+",
round(b1,4),
"(UrbanPop)\n")
## Assault = 73.0766 + 1.4904 (UrbanPop)
plot(datos$UrbanPop,
datos$Assault,
main = "Regresión Assault vs UrbanPop",
xlab = "UrbanPop",
ylab = "Assault",
col = "blue",
pch = 16)
abline(modelo_simple_urban,
col = "red",
lwd = 2)
par(mfrow=c(2,2))
plot(modelo_simple_urban)
Enunciados de análisis:
La ecuación estimada tiene la forma: Assault = β0 +β1(UrbanPop)
Reemplazando con los coeficientes obtenidos en R: Assault = 73.0766 + 1.4904 (UrbanPop)
El intercepto es 73.0766 y significa que si la población urbana fuera 0%, el valor esperado de Assault sería 73.08 pero en la práctica no tiene mucho sentido, porque no existen lugares con 0% de población urbana. Por eso, el intercepto solo ayuda a formar la ecuación del modelo.
El coeficiente de UrbanPop es 1.4904, lo que significa que por cada aumento de 1% en la población urbana, el valor esperado de Assault aumenta aproximadamente en 1.49 unidades es decir, a mayor porcentaje de población urbana, se espera un aumento en los casos de Assault según el modelo.
No, la variable UrbanPop no es estadísticamente significativa al 5%, porque su valor p = 0.0695 es mayor que 0.05 esto significa que no hay suficiente evidencia estadística para afirmar que UrbanPop influye significativamente en Assault con un nivel de confianza del 95%.
El coeficiente de determinación R² = 0.06701 indica que el modelo explica aproximadamente el 6.7% de la variación de la variable Assault a partir de UrbanPop esto significa que la relación entre ambas variables es débil, ya que la mayor parte de la variación de Assault no es explicada por el porcentaje de población urbana.
No, este modelo no es suficiente para explicar los arrestos por agresión (Assault), porque el valor de R² es muy bajo (6.7%) y además la variable UrbanPop no es significativa al 5% esto indica que el porcentaje de población urbana explica muy poco la variación de Assault, por lo que probablemente existen otras variables más importantes que influyen en los arrestos por agresión.
Actividad 6. Regresión lineal simple alternativa: modelo con Murder
Ajuste un segundo modelo simple para explicar Assault a partir de Murder. modelo_simple_murder <- lm(Assault ~ Murder, data = datos) summary(modelo_simple_murder)
regre_simple <- lm(Assault ~ Murder,
data = datos)
summary(regre_simple)
##
## Call:
## lm(formula = Assault ~ Murder, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -107.24 -36.35 -3.67 32.15 118.45
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 51.27 14.69 3.490 0.00105 **
## Murder 15.34 1.65 9.298 2.6e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 50.31 on 48 degrees of freedom
## Multiple R-squared: 0.643, Adjusted R-squared: 0.6356
## F-statistic: 86.45 on 1 and 48 DF, p-value: 2.596e-12
coef(regre_simple)
## (Intercept) Murder
## 51.26932 15.34292
b0 <- coef(regre_simple)[1]
b1 <- coef(regre_simple)[2]
cat("\nEcuación estimada:\n")
##
## Ecuación estimada:
cat("Assault =",
round(b0,4),
"+",
round(b1,4),
"(Murder)\n")
## Assault = 51.2693 + 15.3429 (Murder)
plot(datos$Murder,
datos$Assault,
main = "Regresión Assault vs Murder",
xlab = "Murder",
ylab = "Assault",
col = "red",
pch = 16)
abline(regre_simple,
col = "blue",
lwd = 2)
par(mfrow=c(2,2))
plot(regre_simple)
Enunciados de análisis:
La ecuación estimada tiene la forma: Assault = β0 + β1(Murder)
Reemplazando con los coeficientes obtenidos:
Assault = 51.2693 + 15.3429 (Murder)
El coeficiente de Murder es 15.3429, lo que indica que, en promedio, por cada aumento de 1 unidad en la tasa de Murder, la variable Assault aumenta aproximadamente en 15.34 unidades.
Murder es estadísticamente significativa al 5% porque el p-value del coeficiente es menor a 0.05.
El modelo que utiliza Murder presenta un R2=0.643, lo que significa que explica el 64.3% de la variabilidad de Assault.Si se compara con el modelo que utiliza UrbanPop, el modelo con Murder posee un mayor poder explicativo, ya que presenta un coeficiente de determinación más alto.
El modelo simple que utiliza la variable Murder resulta más conveniente ya que estadísticamente, presenta un R2 más alto y un p-value altamente significativo, lo que indica una relación fuerte con Assault.
Actividad 7. Comparación de modelos simples
Compare los modelos simples utilizando R cuadrado, R cuadrado ajustado, AIC y BIC. summary(modelo_simple_urban)\(r.squared summary(modelo_simple_murder)\)r.squared summary(modelo_simple_urban)\(adj.r.squared summary(modelo_simple_murder)\)adj.r.squared AIC(modelo_simple_urban, modelo_simple_murder) BIC(modelo_simple_urban, modelo_simple_murder)
reg_simple_urban <- lm(Assault ~ UrbanPop,
data = datos)
reg_simple_murder <- lm(Assault ~ Murder,
data = datos)
summary(reg_simple_urban)$r.squared
## [1] 0.06701456
summary(reg_simple_urban)$adj.r.squared
## [1] 0.04757736
summary(reg_simple_murder)$r.squared
## [1] 0.6430008
summary(reg_simple_murder)$adj.r.squared
## [1] 0.6355633
AIC(reg_simple_urban,
reg_simple_murder)
## df AIC
## reg_simple_urban 3 585.7055
## reg_simple_murder 3 537.6727
BIC(reg_simple_urban,
reg_simple_murder)
## df BIC
## reg_simple_urban 3 591.4416
## reg_simple_murder 3 543.4088
Enunciados de análisis:
El modelo que utiliza Murder tiene un R cuadrado mayor que el modelo con UrbanPop, por lo que explica mejor la variabilidad de Assault.
El modelo con Murder presenta menores valores de AIC y BIC, lo que indica un mejor ajuste comparado con el modelo de UrbanPop.
El mejor modelo no debe elegirse únicamente por criterios numéricos. También es importante considerar el contexto del problema, la interpretación de las variables y si el modelo tiene sentido práctico.
Para una primera aproximación del problema se recomendaría el modelo con Murder, porque presenta una relación más fuerte con Assault y mejores indicadores estadísticos.
Actividad 8. Regresión lineal múltiple
Ajuste un modelo de regresión lineal múltiple para explicar Assault a partir de Murder, UrbanPop y Rape. modelo_multiple <- lm(Assault ~ Murder + UrbanPop + Rape, data = datos) summary(modelo_multiple) Modelo teórico:Assault_i = beta_0 + beta_1 Murder_i + beta_2 UrbanPop_i + beta_3 Rape_i + epsilon_i
regre_multiple <- lm(Assault ~ Murder +
UrbanPop +
Rape,
data = datos)
summary(regre_multiple)
##
## Call:
## lm(formula = Assault ~ Murder + UrbanPop + Rape, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -102.420 -21.226 -4.897 21.999 125.744
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -15.4520 31.8581 -0.485 0.6300
## Murder 12.4700 1.8533 6.729 2.33e-08 ***
## UrbanPop 0.6304 0.5054 1.247 0.2186
## Rape 2.2502 0.9432 2.386 0.0212 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 45.58 on 46 degrees of freedom
## Multiple R-squared: 0.7192, Adjusted R-squared: 0.7009
## F-statistic: 39.27 on 3 and 46 DF, p-value: 9.678e-13
coef(regre_multiple)
## (Intercept) Murder UrbanPop Rape
## -15.4519952 12.4700264 0.6304476 2.2501833
b0 <- coef(regre_multiple)[1]
b1 <- coef(regre_multiple)[2]
b2 <- coef(regre_multiple)[3]
b3 <- coef(regre_multiple)[4]
cat("\nEcuación estimada:\n")
##
## Ecuación estimada:
cat("Assault =",
round(b0,4), "+",
round(b1,4), "(Murder) +",
round(b2,4), "(UrbanPop) +",
round(b3,4), "(Rape)\n")
## Assault = -15.452 + 12.47 (Murder) + 0.6304 (UrbanPop) + 2.2502 (Rape)
par(mfrow=c(2,2))
Enunciados de análisis:
La ecuación estimada tiene la forma: Assault = β0 + β1(Murder) + β2(UrbanPop) + β3(Rape)
Reemplazando con los coeficientes obtenidos en R: Assault = -15.452 + 12.47 (Murder) + 0.6304 (UrbanPop) + 2.2502 (Rape)
Manteniendo constantes las variables UrbanPop y Rape, por cada aumento de 1 unidad en Murder, la variable Assault aumenta en promedio aproximadamente 12.47 unidades.
Esto indica que existe una relación positiva entre Murder y Assault cuando las demás variables permanecen constantes.
Manteniendo constantes Murder y Rape, por cada aumento de 1 unidad en UrbanPop, la variable Assault aumenta en promedio aproximadamente 0.63 unidades.
Esto sugiere una relación positiva, aunque relativamente débil, entre el porcentaje de población urbana y los arrestos por agresión.
Manteniendo constantes Murder y UrbanPop, por cada aumento de 1 unidad en Rape, la variable Assault aumenta en promedio aproximadamente 2.25 unidades.
Una variable es estadísticamente significativa al 5% cuando su p-value es menor que 0.05.
En este modelo:
Murder es significativa, ya que su p-value es 2.33×10−8 Rape también es significativa, ya que su p-value es 0.0212. UrbanPop no es significativa al 5%, porque su p-value es 0.2186, valor mayor que 0.05.
Por lo tanto, las variables significativas en el modelo son Murder y Rape.
El coeficiente de determinación R2=0.7192 indica que el 71.92% de la variabilidad de Assault es explicada conjuntamente por las variables Murder, UrbanPop y Rape.
Por otro lado, el R2ajustado es 0.7009, lo que significa que, después de considerar la cantidad de variables incluidas en el modelo, aproximadamente el 70.09% de la variabilidad sigue siendo explicada por el modelo.
El modelo múltiple ofrece una mejor explicación estadística que los modelos simples, debido a que presenta un R2más alto y considera simultáneamente varias variables relacionadas con Assault.
Mientras los modelos simples explican la variabilidad utilizando una sola variable, el modelo múltiple incorpora más información y logra explicar mejor el comportamiento de la variable respuesta.
Sí, todos los coeficientes presentan signos positivos y coherentes con el contexto analizado.
Esto significa que un incremento en las variables Murder, UrbanPop y Rape se asocia con un aumento en los arrestos por Assault. En especial, las variables relacionadas con criminalidad (Murder y Rape) muestran relaciones positivas esperadas con la variable respuesta.
Actividad 9. Evaluación de supuestos del modelo múltiple Evalúe los supuestos básicos del modelo de regresión lineal múltiple mediante gráficos y pruebas estadísticas.
# Librerías
library(lmtest)
## Warning: package 'lmtest' was built under R version 4.4.3
## Cargando paquete requerido: zoo
## Warning: package 'zoo' was built under R version 4.4.3
##
## Adjuntando el paquete: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
library(car)
## Warning: package 'car' was built under R version 4.4.3
## Cargando paquete requerido: carData
## Warning: package 'carData' was built under R version 4.4.3
# Modelo
regre_multiple <- lm(Assault ~ Murder +
UrbanPop +
Rape,
data = datos)
summary(regre_multiple)
##
## Call:
## lm(formula = Assault ~ Murder + UrbanPop + Rape, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -102.420 -21.226 -4.897 21.999 125.744
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -15.4520 31.8581 -0.485 0.6300
## Murder 12.4700 1.8533 6.729 2.33e-08 ***
## UrbanPop 0.6304 0.5054 1.247 0.2186
## Rape 2.2502 0.9432 2.386 0.0212 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 45.58 on 46 degrees of freedom
## Multiple R-squared: 0.7192, Adjusted R-squared: 0.7009
## F-statistic: 39.27 on 3 and 46 DF, p-value: 9.678e-13
# Gráficos de diagnóstico
par(mfrow=c(2,2))
plot(regre_multiple)
# Residuos
residuos <- resid(regre_multiple)
# Normalidad
shapiro.test(residuos)
##
## Shapiro-Wilk normality test
##
## data: residuos
## W = 0.9725, p-value = 0.2915
# Homocedasticidad
bptest(regre_multiple)
##
## studentized Breusch-Pagan test
##
## data: regre_multiple
## BP = 4.6168, df = 3, p-value = 0.2021
# Multicolinealidad
vif(regre_multiple)
## Murder UrbanPop Rape
## 1.536825 1.262276 1.840863
Enunciados de análisis:
En el gráfico Residuals vs Fitted los residuos se distribuyen alrededor de la línea horizontal en cero sin presentar un patrón claramente definido. Aunque existe una ligera curvatura en la línea roja, no se observa una estructura fuerte que indique problemas graves de linealidad.
Por lo tanto, puede considerarse que los residuos presentan un comportamiento aproximadamente aleatorio y que el modelo lineal resulta adecuado.
La prueba de Shapiro-Wilk obtuvo un p-value de 0.2915. Como este valor es mayor que 0.05, no se rechaza la hipótesis nula de normalidad.
Además, en el gráfico Q-Q Residuals los puntos siguen relativamente la línea de referencia, aunque existen pequeñas desviaciones en los extremos. Esto indica que los residuos pueden considerarse aproximadamente normales.
La prueba de Breusch-Pagan arrojó un p-value de 0.2021. Dado que este valor es mayor a 0.05, no existe evidencia suficiente para rechazar la hipótesis de homocedasticidad.
En el gráfico Scale-Location se observa una dispersión relativamente constante de los residuos, aunque con una leve tendencia creciente. Sin embargo, esta variación no parece suficientemente fuerte como para indicar heterocedasticidad severa.
Los valores VIF fueron: Murder = 1.54 UrbanPop = 1.26 Rape = 1.84 Como todos los valores son menores a 5, no existe multicolinealidad relevante entre las variables independientes.
En el gráfico Residuals vs Leverage se identifican algunas observaciones potencialmente influyentes, como North Carolina, Rhode Island y Georgia, ya que presentan valores relativamente altos de leverage o residuos estandarizados.
Sin embargo, ninguna observación supera claramente las líneas de distancia de Cook, por lo que no parecen existir puntos extremadamente influyentes que afecten gravemente el ajuste del modelo.
En general, el modelo de regresión lineal múltiple cumple adecuadamente los supuestos principales. Los residuos presentan un comportamiento aproximadamente aleatorio y normal, no existe evidencia significativa de heterocedasticidad y tampoco se detecta multicolinealidad importante entre las variables independientes.
Aunque existen algunas observaciones con cierta influencia, estas no afectan de forma severa la estabilidad del modelo. Por ello, el modelo puede considerarse estadísticamente adecuado para explicar la variabilidad de la variable Assault.
Actividad 10. Predicción e interpretación aplicada
Utilice el modelo múltiple para estimar el nivel esperado de arrestos por agresión en un estado hipotético con las siguientes características: Murder = 8, UrbanPop = 70 y Rape = 25. nuevo_estado <- data.frame( Murder = 8, UrbanPop = 70, Rape = 25 ) predict(modelo_multiple, nuevo_estado, interval = “confidence”) predict(modelo_multiple, nuevo_estado, interval = “prediction”)
modelo_multiple <- lm(Assault ~ Murder +
UrbanPop +
Rape,
data = datos)
summary(modelo_multiple)
##
## Call:
## lm(formula = Assault ~ Murder + UrbanPop + Rape, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -102.420 -21.226 -4.897 21.999 125.744
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -15.4520 31.8581 -0.485 0.6300
## Murder 12.4700 1.8533 6.729 2.33e-08 ***
## UrbanPop 0.6304 0.5054 1.247 0.2186
## Rape 2.2502 0.9432 2.386 0.0212 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 45.58 on 46 degrees of freedom
## Multiple R-squared: 0.7192, Adjusted R-squared: 0.7009
## F-statistic: 39.27 on 3 and 46 DF, p-value: 9.678e-13
nuevo_estado <- data.frame(
Murder = 8,
UrbanPop = 70,
Rape = 25
)
predict(modelo_multiple,
nuevo_estado,
interval = "confidence")
## fit lwr upr
## 1 184.6941 170.3306 199.0577
predict(modelo_multiple,
nuevo_estado,
interval = "prediction")
## fit lwr upr
## 1 184.6941 91.83006 277.5582
Enunciados de análisis:
La predicción puntual obtenida para Assault es 184.69.
Esto significa que, para un estado con valores de Murder = 8, UrbanPop = 70 y Rape = 25, el modelo estima aproximadamente 185 arrestos por agresión por cada 100000 habitantes.
El intervalo de confianza al 95% para la media de Assault va desde 170.33 hasta 199.06.
Esto significa que, con un 95% de confianza, el promedio real de arrestos por agresión para estados con características similares se encuentra dentro de ese rango.
El intervalo de predicción al 95% va desde 91.83 hasta 277.56.
Esto indica que un estado individual con valores de Murder = 8, UrbanPop = 70 y Rape = 25 podría presentar un valor de Assault dentro de ese intervalo.
El rango es más amplio porque considera la variabilidad individual de las observaciones.
El intervalo de confianza se utiliza para estimar el valor promedio esperado de Assault para estados con características similares.
En cambio, el intervalo de predicción estima el posible valor de una observación individual futura.
Por esta razón, el intervalo de predicción es más amplio que el intervalo de confianza, ya que incorpora tanto la variabilidad del promedio como la variabilidad individual de los datos.
Una empresa multinacional dedicada al análisis de riesgo podría utilizar estas predicciones para identificar estados con mayores niveles esperados de criminalidad y violencia. Esta información permitiría evaluar riesgos antes de realizar inversiones, abrir sucursales o establecer operaciones comerciales. Además, podría servir para planificar medidas de seguridad, costos de seguros y estrategias de expansión en diferentes regiones.