Ejecute los comandos iniciales de carga y exploración de la base USArrests. Luego responda los siguientes enunciados:
# Base de datos
data("USArrests")
# Dimensiones
dim(USArrests)
## [1] 50 4
De acuerdo a la base de datos USArrests, se identificó que esta conformada por 50 observaciones lo cual se refiere al número de estados de EE.UU. y 4 variables cuantitativas siendo estas las causas de agresión a los 100000 habitantes.
# Nombres de las filas de los estados
rownames(USArrests)
## [1] "Alabama" "Alaska" "Arizona" "Arkansas"
## [5] "California" "Colorado" "Connecticut" "Delaware"
## [9] "Florida" "Georgia" "Hawaii" "Idaho"
## [13] "Illinois" "Indiana" "Iowa" "Kansas"
## [17] "Kentucky" "Louisiana" "Maine" "Maryland"
## [21] "Massachusetts" "Michigan" "Minnesota" "Mississippi"
## [25] "Missouri" "Montana" "Nebraska" "Nevada"
## [29] "New Hampshire" "New Jersey" "New Mexico" "New York"
## [33] "North Carolina" "North Dakota" "Ohio" "Oklahoma"
## [37] "Oregon" "Pennsylvania" "Rhode Island" "South Carolina"
## [41] "South Dakota" "Tennessee" "Texas" "Utah"
## [45] "Vermont" "Virginia" "Washington" "West Virginia"
## [49] "Wisconsin" "Wyoming"
# Primeras filas de la base
head(USArrests)
## Murder Assault UrbanPop Rape
## Alabama 13.2 236 58 21.2
## Alaska 10.0 263 48 44.5
## Arizona 8.1 294 80 31.0
## Arkansas 8.8 190 50 19.5
## California 9.0 276 91 40.6
## Colorado 7.9 204 78 38.7
Cada fila representa a cada estado de Estados Unidos, y en cada estado tiene las cuatro variables cuantitativas que relacionan al tipo de arresto.
# Estructura
str(USArrests)
## 'data.frame': 50 obs. of 4 variables:
## $ Murder : num 13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ...
## $ Assault : int 236 263 294 190 276 204 110 238 335 211 ...
## $ UrbanPop: int 58 48 80 50 91 78 77 72 80 60 ...
## $ Rape : num 21.2 44.5 31 19.5 40.6 38.7 11.1 15.8 31.9 25.8 ...
La base de datos esta conformada por cuatro variables cuantitativas continuas que se refiere al tipo de aresto, los cuales son por: homicidios, agresión, población urbana, violación.
# Nombres de variables
names(USArrests)
## [1] "Murder" "Assault" "UrbanPop" "Rape"
La variables dependiente es Assault, debido a que, esta variable hace referencia los arresto por agresión por cada 100000 habitantes.
Las variables que se pueden utilizar como predictoras son: Murder, UrbanPop y Rape, porque aquellas ayudan a explicar el comportamiento de la variable Assault, con factores que inluyen sobre los niveles de arrestos por agresión.
Calcule medidas de tendencia central, dispersión, mínimo, máximo y rango para las variables cuantitativas de la base. Enunciados de análisis:
# Promedio
mean(USArrests$Assault)
## [1] 170.76
# Mediana
median(USArrests$Assault)
## [1] 159
De acuerdo al análisis de la variable Assault que hace referencia a los arrestos por agresión, indica que en promedio hay 171 arrestos por cada 100000 habitantes. Mientras que la mediana con un valor de 159, indica que el valor valor no se aleja tanto al promedio.
# Desviación estándar de las variables
apply(USArrests, 2, sd)
## Murder Assault UrbanPop Rape
## 4.355510 83.337661 14.474763 9.366385
La variable Assault presentó la mayor variabilidad, porque registró la desviación estándar más alta entre las demás variable, representando que los niveles de arrestos por agresión varian entre los demás estados.
# Valores mínimos y máximos
apply(USArrests, 2, range)
## Murder Assault UrbanPop Rape
## [1,] 0.8 45 32 7.3
## [2,] 17.4 337 91 46.0
Se observó que algunas variables tuvieron diferencias grandes entre el mínimo y el máximo, lo que sugirió la presencia de estados con niveles de criminalidad muy altos, ya que es alarmante tomando en cuenta que es por cada 100000 habitantes.
sd(USArrests$Assault)
## [1] 83.33766
Se observó que la desviación estándar de Assault fue 83.33766, lo que indicó que los arrestos por agresión presentaron bastante variación, ya que muchos valores se alejaron del promedio.
summary(USArrests)
## Murder Assault UrbanPop Rape
## Min. : 0.800 Min. : 45.0 Min. :32.00 Min. : 7.30
## 1st Qu.: 4.075 1st Qu.:109.0 1st Qu.:54.50 1st Qu.:15.07
## Median : 7.250 Median :159.0 Median :66.00 Median :20.10
## Mean : 7.788 Mean :170.8 Mean :65.54 Mean :21.23
## 3rd Qu.:11.250 3rd Qu.:249.0 3rd Qu.:77.75 3rd Qu.:26.18
## Max. :17.400 Max. :337.0 Max. :91.00 Max. :46.00
Se observó que los niveles de criminalidad variaron entre los estados analizados. La variable Assault presentó valores altos, con 337 arrestos por agresión, mientras que Murder y Rape también mostraron diferencias. Además, el porcentaje de población urbana fue elevado en varios estados, con un promedio al 66%.
Construya gráficos que permitan analizar la distribución de Assault y su relación con las variables UrbanPop, Murder y Rape. Enunciados de análisis:
11.Describa la forma general de la distribución de Assault.
# Histograma de Assault
hist(USArrests$Assault,
main = "Distribución de Assault",
xlab = "Assault",
col = "orange",
border = "brown")
La variable dependiente tiene una asimetría a la derecha porque en
ciertos estados hubo mas arresto de lo normal tambien en pocos estados
se mostro arrestos superior a lo normal.
12.Explique si la relación visual entre UrbanPop y Assault parece débil, moderada o fuerte.
# Gráfico de dispersión
plot(USArrests$UrbanPop,
USArrests$Assault,
main = "UrbanPop vs Assault",
xlab = "UrbanPop",
ylab = "Assault",
pch = 19,
col = "gray")
La variable Assault y UrbanPop tiene una relación debil o moderada ya que en el grafico se puede observa que tiene bastante dispersión y no tiene tendencia lineal.Se debe que la población urbana no dio detalles por el arresto.
13.Explique si la relación visual entre Murder y Assault parece positiva o negativa.
# Gráfico de dispersión
plot(USArrests$Murder,
USArrests$Assault,
main = "Murder vs Assault",
xlab = "Murder",
ylab = "Assault",
pch = 19,
col = "gold")
La relación visual entre Murder y Assault se vio que es positiva esto debe al incremento de los homicidios provocando el aumento de los arrestos por agresión.
14.Compare cuál de las relaciones observadas parece más adecuada para iniciar un modelo de regresión simple.
# Matriz de gráficos
pairs(USArrests)
Las relaciones observadas más adecuada para iniciar un modelo de regresión simple son entre la variables Murder y Assault porque ambas tienes una tendencia lineal clara y menos dispersión la Murder puede ser la predictora.
15.Identifique posibles observaciones atípicas y explique cómo podrían afectar el modelo
# Boxplot de Assault
boxplot(USArrests$Assault,
main = "Boxplot de Assault",
col = "turquoise")
En algunos estados tiene particularidades altas de homicidios se les
considera observaciones atípicas pueden afectar para la pendiente de la
recta de regresión.
##Actividad 4. Matriz de correlación
Calcule e interprete la matriz de correlación entre las variables cuantitativas. Enunciados de análisis:
16.Identifique la variable con mayor correlación positiva con Assault.
# Correlaciones con Assault
cor(USArrests$Assault, USArrests)
## Murder Assault UrbanPop Rape
## [1,] 0.8018733 1 0.2588717 0.6652412
La variable con mayor correlación la variable Murder con el 0.80 aproximada obteniendo una correlación positiva con Assault.Los estados con mayor homicidios tambien a registrar mayores arrestos en los estados.
17.Determine si UrbanPop tiene una relación fuerte o débil con Assault.
# Correlación entre las variables UrbanPop y Assault
cor(USArrests$UrbanPop,
USArrests$Assault)
## [1] 0.2588717
La variable urbanpop tiene una relacion debil comparando con la variable Assault ya que se puede ver que no es cercana al 1 el problema fue que la poblacion urbana no quizo dar información clara.
18.Analice si existe correlación relevante entre las variables independientes.
# Correlación de variables independientes
cor(USArrests[, c("Murder",
"UrbanPop",
"Rape")])
## Murder UrbanPop Rape
## Murder 1.00000000 0.06957262 0.5635788
## UrbanPop 0.06957262 1.00000000 0.4113412
## Rape 0.56357883 0.41134124 1.0000000
Las variables independientes Murder,Rape y Urbanpop tienen una correlación relavante en especial la Murder y Urbapop,No podemos tomarlas para resolverun problema conplicado.
19.Explique por qué la correlación no implica necesariamente causalidad.
# Relaciones
pairs(USArrests)
Las cuatro variables cuantitativas tienen una correlación positiva esto
no muestra que la una dependa de la otra o sea causada se visualizo una
asociación entre ellas.
20.Argumente qué variables deberían incluirse inicialmente en el modelo múltiple.
# Variables seleccionadas
datos <- USArrests[, c("Assault",
"Murder",
"UrbanPop",
"Rape")]
head(datos)
## Assault Murder UrbanPop Rape
## Alabama 236 13.2 58 21.2
## Alaska 263 10.0 48 44.5
## Arizona 294 8.1 80 31.0
## Arkansas 190 8.8 50 19.5
## California 276 9.0 91 40.6
## Colorado 204 7.9 78 38.7
Las variables independientes fueron correctas para empezar con el modelo de regresión lineal porque las tres presentaron relación
Ajuste un modelo de regresión lineal simple para explicar Assault a partir de UrbanPop. Modelo teórico: \[Assault_i = \beta_0 + \beta_1 UrbanPop_i + \epsilon_i \] Enunciados de análisis:
# Modelo simple
modelo1 <- lm(Assault ~ UrbanPop, data = USArrests)
# Resumen del modelo
summary(modelo1)
##
## Call:
## lm(formula = Assault ~ UrbanPop, data = USArrests)
##
## Residuals:
## Min 1Q Median 3Q Max
## -150.78 -61.85 -18.68 58.05 196.85
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 73.0766 53.8508 1.357 0.1811
## UrbanPop 1.4904 0.8027 1.857 0.0695 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 81.33 on 48 degrees of freedom
## Multiple R-squared: 0.06701, Adjusted R-squared: 0.04758
## F-statistic: 3.448 on 1 and 48 DF, p-value: 0.06948
Mediante el modelo aplicado, se obtuvo la siguiente ecuacion estimada:
\[ \widehat{Assault} = 73.0766 + 1.4904UrbanPop \] 22. Interprete el intercepto del modelo, considerando si tiene sentido práctico en este contexto.
Se observó que el intercepto fue 73.08 y la pendiente fue 1.49, indicando que al aumentar UrbanPop, también aumentaron los arrestos por agresión.
El coeficiente de UrbanPop fue 1.49, lo que indicó que por cada aumento de una unidad en el porcentaje de población urbana, los arrestos por agresión aumentaron aproximadamente en 1.49 unidades en los estados analizados.
La variable UrbanPop no fue estadísticamente significativa al 5%, debido a que el valor p=0.06948 fue mayor que 0.05, lo cual no existe suficiente evidencia para afirmar que UrbanPop explicó significativamente los arrestos por agresión.
El \(R^2 = 0.067\) mostró que el modelo explicó el 6.7% de la variación de Assault, esto significa que UrbanPop tuvo una capacidad baja para explicar los arrestos por agresión.
El modelo no fue suficiente para explicar los arrestos por agresión, debido a que presentó un (R^2) bajo y UrbanPop no fue significativa al 5%.
Ajuste un segundo modelo simple para explicar Assault a partir de Murder.
# Modelo simple con Murder
ms_murder <- lm(Assault ~ Murder, data = USArrests)
# Resumen del modelo
summary(ms_murder)
##
## Call:
## lm(formula = Assault ~ Murder, data = USArrests)
##
## Residuals:
## Min 1Q Median 3Q Max
## -107.24 -36.35 -3.67 32.15 118.45
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 51.27 14.69 3.490 0.00105 **
## Murder 15.34 1.65 9.298 2.6e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 50.31 on 48 degrees of freedom
## Multiple R-squared: 0.643, Adjusted R-squared: 0.6356
## F-statistic: 86.45 on 1 and 48 DF, p-value: 2.596e-12
Mediante el modelo aplicado, se obtuvo la siguiente ecuacion estimada:
\[ \widehat{Assault} = 51.27 + 15.34(Murder) \] 28. Interprete el coeficiente de Murder
El coeficiente de Murder fue 15.34, esto quiere decir que por cada aumento de una unidad en los arrestos por asesinato, los arrestos por agresión aumentaron aproximadamente en 16 aproximando al entero superior.
La variable Murder fue estadísticamente significativa al 5%, debido a que el valor p-value: 2.596e-12 que es menor a 0.05, lo que significa que los arrestos por asesinato tuvieron una relación significatia con los arrestos por agresión.
El modelo con Murder presentó un \(R^2 = 0.643\) o un 64.3%, mayor que el modelo con UrbanPop \(R^2 = 6.7%\). Esto indicó que Murder explicó mejor la variación de los arrestos por agresión, abarcando que el modelo explica el 64.3% de los datos.
El modelo con Murder fue el más adecuado, porque explicó mejor los arrestos por agresión con un 64.3% y además la variable resultó significativa. En comparación, UrbanPop tuvo poca capacidad para explicar el comportamiento de Assault con un 6.7%.
Compare los modelos simples utilizando R cuadrado, R cuadrado ajustado, AIC y BIC.
Enunciados de análisis:
El modelo con Murder presentó el mayor \(R^2=0.643\), por lo que explicó mejor la variación de los arrestos por agresión ajustando un mejor modelo a los datos en comparación con el modelo que utilizó UrbanPop que fue menor.
# Comparación de AIC y BIC
AIC(modelo1, ms_murder)
## df AIC
## modelo1 3 585.7055
## ms_murder 3 537.6727
BIC(modelo1, ms_murder)
## df BIC
## modelo1 3 591.4416
## ms_murder 3 543.4088
El modelo con Murder presentó menores valores de AIC=537.67 y BIC=543.41, en comparación con el modelo con UrbanPop. Esto indicó que el modelo con Murder tuvo un mejor ajuste para explicar los arrestos por agresión.
Aunque el modelo con Murder tuvo mejores resultados numéricos, también se consideró importante que la variable estuviera relacionada con el problema de criminalidad que se analizó.
Para una primera aproximación del problema, se recomendaría el modelo con Murder, porque explicó mejor los arrestos por agresión y presentó una relación significativa con la variable Assault con valor favorable de R^2.
Trabajar solo con regresión simple tuvo algunas limitaciones, porque el modelo consideró una sola variable y dejó fuera otros factores que también pudieron influir en los arrestos por agresión. Además, los resultados pudieron ser menos precisos trabajando solo con el modelo simple.
##Actividad 8. Regresión lineal múltiple
Ajuste un modelo de regresión lineal múltiple para explicar Assault a partir de Murder, UrbanPop y Rape.
m_multiple <- lm(Assault ~ Murder + UrbanPop + Rape, data = USArrests)
summary(m_multiple)
##
## Call:
## lm(formula = Assault ~ Murder + UrbanPop + Rape, data = USArrests)
##
## Residuals:
## Min 1Q Median 3Q Max
## -102.420 -21.226 -4.897 21.999 125.744
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -15.4520 31.8581 -0.485 0.6300
## Murder 12.4700 1.8533 6.729 2.33e-08 ***
## UrbanPop 0.6304 0.5054 1.247 0.2186
## Rape 2.2502 0.9432 2.386 0.0212 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 45.58 on 46 degrees of freedom
## Multiple R-squared: 0.7192, Adjusted R-squared: 0.7009
## F-statistic: 39.27 on 3 and 46 DF, p-value: 9.678e-13
Modelo teórico:
\[ Assault_i = \beta_0 + \beta_1 (Murder_i) + \beta_2 (UrbanPop_i) + \beta_3 (Rape_i) + \epsilon_i\]
Enunciados de análisis:
Se obtuvo la siguinte ecuación estimada del módelo múltiple:
\[ \widehat{Assault} = −15.45+ 12.47(Murder_i) + 0.63 (UrbanPop_i) + 2.25 (Rape_i)\]
El coeficiente de Murder fue 12.47 aproximando al entero superior de 13, lo que indicó que, manteniendo constantes UrbanPop y Rape, un aumento de una unidad en Murder incrementó aproximadamente en 12.47 o 13 unidades los arrestos por agresión.
El coeficiente de UrbanPop fue 0.63, y manteniendo constantes Murder y Rape, indicando un aumento en el porcentaje de población urbana estuvo asociado con un ligero aumento en los arrestos por agresión.
El coeficiente de Rape fue 2.25, lo que indicó que, manteniendo constantes Murder y UrbanPop, un aumento en los arrestos por violación se asoció con un incremento en los arrestos por agresión.
41.Determine qué variables son estadísticamente significativas al 5%.
# Modelo múltiple
modelo_multiple <- lm(Assault ~ Murder + UrbanPop + Rape,
data = USArrests)
# Resumen del modelo
summary(modelo_multiple)
##
## Call:
## lm(formula = Assault ~ Murder + UrbanPop + Rape, data = USArrests)
##
## Residuals:
## Min 1Q Median 3Q Max
## -102.420 -21.226 -4.897 21.999 125.744
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -15.4520 31.8581 -0.485 0.6300
## Murder 12.4700 1.8533 6.729 2.33e-08 ***
## UrbanPop 0.6304 0.5054 1.247 0.2186
## Rape 2.2502 0.9432 2.386 0.0212 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 45.58 on 46 degrees of freedom
## Multiple R-squared: 0.7192, Adjusted R-squared: 0.7009
## F-statistic: 39.27 on 3 and 46 DF, p-value: 9.678e-13
Tras los resultados del modelo multiple,las variables independientes Murder y Rape es significativa al 5% y la variable UrbanPop tiene significancia menor aporta limitadamente.
42.Interprete el R cuadrado y el R cuadrado ajustado del modelo múltiple.
# R cuadrado
summary(modelo_multiple)$r.squared
## [1] 0.7191879
# R cuadrado ajustado
summary(modelo_multiple)$adj.r.squared
## [1] 0.7008741
El R cuadrado indicó la proporción de variabilidad de la variable dependiente que fue explicada por las variables independientes. El R cuadrado ajustado mostró una medida más precisa del ajuste del modelo, debido a que consideró el número de variables incluidas. Los dos resultados evidenciaron que el modelo múltiple presentó una capacidad explicativa considerablemente superior a los modelos simples.
43.Compare el modelo múltiple con los modelos simples y determine cuál ofrece mejor explicación estadística.
# Modelos simples
modelo_simple_urban <- lm(Assault ~ UrbanPop,
data = USArrests)
modelo_simple_murder <- lm(Assault ~ Murder,
data = USArrests)
# Comparación de R cuadrados
summary(modelo_simple_urban)$r.squared
## [1] 0.06701456
summary(modelo_simple_murder)$r.squared
## [1] 0.6430008
summary(modelo_multiple)$r.squared
## [1] 0.7191879
El modelo múltiple tiene una mejor explicación estadística en comparación con los modelos simples, debido a que presentó un mayor valor de R cuadrado que permite incorporar simultáneamente diferentes factores asociados a la criminalidad. Esto evidenció que la combinación de variables predictoras proporcionó una representación más completa del comportamiento de los arrestos por agresión.
44.Explique si todos los coeficientes tienen signos coherentes con el contexto analizado.
# Coeficientes del modelo
coef(modelo_multiple)
## (Intercept) Murder UrbanPop Rape
## -15.4519952 12.4700264 0.6304476 2.2501833
Todos los coeficientes estimados presentaron signos coherentes con el contexto analizado, debido a que las variables relacionadas con mayores niveles de homicidios mostraron efectos positivos sobre los arrestos por agresión.Al incrementarse variables como Murder y Rape, también aumentaron los valores esperados de Assault.
##Actividad 9. Evaluación de supuestos del modelo múltiple
Evalúe los supuestos básicos del modelo de regresión lineal múltiple mediante gráficos y pruebas estadísticas. Enunciados de análisis:
45.Analice gráficamente si los residuos presentan un patrón aleatorio.
# Configuración de ventana gráfica
par(mfrow = c(2,2))
# 1. Residuos vs Ajustados
plot(modelo_multiple,
which = 1,
col = "brown",
pch = 19,
main = "Residuos vs Ajustados")
# 2. QQ Plot
plot(modelo_multiple,
which = 2,
col = "black",
pch = 19,
main = "QQ Plot")
# 3. Scale-Location
plot(modelo_multiple,
which = 3,
col = "coral",
pch = 19,
main = "Scale-Location")
# 4. Distancia de Cook
plot(modelo_multiple,
which = 4,
col = "violet",
pch = 19,
main = "Distancia de Cook")
Los gráficos permitieron observar que los residuos se distribuyeron de
manera relativamente aleatoria alrededor de cero, sin presentar patrones
sistemáticos importantes.El modelo de regresión múltiple cumplió
razonablemente con los supuestos de linealidad y homocedasticidad.
Los residuos mostraron un comportamiento aceptable en términos de normalidad y no se evidenciaron desviaciones severas que comprometieran la validez general del modelo.
46.Interprete la prueba de Shapiro-Wilk para normalidad de residuos.
# Prueba de normalidad
shapiro.test(residuals(modelo_multiple))
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo_multiple)
## W = 0.9725, p-value = 0.2915
La prueba de Shapiro-Wilk permite evaluar la normalidad de los residuos del modelo.Ya que su valor p obtenido fue mayor a 5%, no se rechazó la hipótesis de normalidad, indicando que los residuos pudieron considerarse aproximadamente normales.
47.Interprete la prueba de Breusch-Pagan para homocedasticidad.
# Cargar librería
library(lmtest)
## Warning: package 'lmtest' was built under R version 4.5.3
## Cargando paquete requerido: zoo
## Warning: package 'zoo' was built under R version 4.5.3
##
## Adjuntando el paquete: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
# Prueba Breusch-Pagan
bptest(modelo_multiple)
##
## studentized Breusch-Pagan test
##
## data: modelo_multiple
## BP = 4.6168, df = 3, p-value = 0.2021
La prueba de Breusch-Pagan no existio evidencias suficientes de heterocedasticidad, Ya que el valor p resultó mayor a 0.05 la varianza de los residuos permaneció relativamente constante.
48.Interprete los valores VIF y determine si existe multicolinealidad relevante.
# Cargar librería
library(car)
## Warning: package 'car' was built under R version 4.5.3
## Cargando paquete requerido: carData
## Warning: package 'carData' was built under R version 4.5.3
# Valores VIF
vif(modelo_multiple)
## Murder UrbanPop Rape
## 1.536825 1.262276 1.840863
Los valores VIF fueron bajos y estuvieron dentro de rangos aceptables, indico ausencia de problemas graves de multicolinealidad entre las variables independientes como UrbanPop, Murder y Rape incluidas en el modelo.
49.Identifique si existen observaciones influyentes en los gráficos de diagnóstico.
# Distancia de Cook
plot(cooks.distance(modelo_multiple),
type = "h",
col = "salmon",
lwd = 2,
main = "Distancia de Cook",
ylab = "Cook's Distance",
xlab = "Observaciones")
# Línea de referencia
abline(h = 4/length(modelo_multiple$fitted.values),
col = "green",
lty = 2,
lwd = 2)
Se identifico algunas observaciones con niveles de influencia relativamente altos dentro del modelo.Las observaciones no parecieron afectar de manera crítica la estabilidad general de los coeficientes estimados.
50.Redacte una conclusión general sobre el cumplimiento de los supuestos del modelo.
El modelo de regresión múltiple cumplió razonablemente con regresión lineal. Los residuos mostraron un comportamiento adecuado no se evidenciaron problemas importantes de heterocedasticidad ni multicolinealidad y la normalidad de los residuos resultó aceptable.
El modelo pudo considerarse válido para realizar inferencias y predicciones dentro de lo analizado.
##Actividad 10. Predicción e interpretación aplicada
Utilice el modelo múltiple para estimar el nivel esperado de arrestos por agresión en un estado hipotético con las siguientes características: Murder = 8, UrbanPop = 70 y Rape = 25.
51.Reporte la predicción puntual obtenida para Assault.
nuevo_estado <- data.frame(
Murder = 8,
UrbanPop = 70,
Rape = 25
)
predict(modelo_multiple, nuevo_estado, interval = "confidence")
## fit lwr upr
## 1 184.6941 170.3306 199.0577
predict(modelo_multiple, nuevo_estado, interval = "prediction")
## fit lwr upr
## 1 184.6941 91.83006 277.5582
La predicción puntual obtenida indicó el nivel esperado de arrestos por agresión para un estado hipotético con las características especificadas de homicidios, población urbana y violaciones.
52.Interprete el intervalo de confianza.
# Intervalo de confianza
predict(modelo_multiple,
nuevo_estado,
interval = "confidence")
## fit lwr upr
## 1 184.6941 170.3306 199.0577
El intervalo de confianza presento rango dentro se espera encontrar el promedio real de arrestos por agresión para estados con características similares al estado hipotético analizado.
53.Interprete el intervalo de predicción.
# Intervalo de predicción
predict(modelo_multiple,
nuevo_estado,
interval = "prediction")
## fit lwr upr
## 1 184.6941 91.83006 277.5582
El intervalo de predicción presento el rango dentro del cual pudo encontrarse un valor individual futuro de arrestos por agresión para un estado con su respectiva caracteristica.
54.Explique la diferencia entre intervalo de confianza e intervalo de predicción.
El intervalo de confianza fue utilizada para estimar la media poblacional esperada, mientras que el intervalo de predicción incorporó además la variabilidad individual de futuras observaciones. Por esta razón, el intervalo de predicción resultó más amplio que el intervalo de confianza.
55.Explique cómo podría usar esta predicción una empresa multinacional dedicada al análisis de riesgo.
La empresa multinacional puede utilizar la predicción obtenida para identificar estados con mayores niveles potenciales de los homicidios y riesgo social.Con las variables como Murder, UrbanPop y Rape, el modelo permitió estimar el comportamiento esperado de los arrestos por agresión facilitando la toma de decisiones relacionadas con inversión, expansión territorial y seguridad. Ayudó a evaluar qué zonas presentaron mayores riesgos operativos, permitiendo implementar estrategias preventivas, fortalecer medidas de seguridad y planificar de manera más eficiente sus actividades empresariales.Los intervalos de confianza y predicción permitieron considerar la incertidumbre asociada por cada uno de los homicidios a las estimaciones realizadas.