Actividades y enunciados del taller

Actividad 1. Reconocimiento de la base de datos

Ejecute los comandos iniciales de carga y exploración de la base USArrests. Luego responda los siguientes enunciados:

¿Cuántas observaciones y cuántas variables contiene la base de datos?

# Base de datos
data("USArrests")

# Dimensiones
dim(USArrests)

## [1] 50  4

De acuerdo a la base de datos USArrests, se identificó que esta conformada por 50 observaciones lo cual se refiere al número de estados de EE.UU. y 4 variables cuantitativas siendo estas las causas de agresión a los 100000 habitantes.

¿Qué representa cada fila de la base?

# Nombres de las filas de los estados
rownames(USArrests)

##  [1] "Alabama"        "Alaska"         "Arizona"        "Arkansas"      
##  [5] "California"     "Colorado"       "Connecticut"    "Delaware"      
##  [9] "Florida"        "Georgia"        "Hawaii"         "Idaho"         
## [13] "Illinois"       "Indiana"        "Iowa"           "Kansas"        
## [17] "Kentucky"       "Louisiana"      "Maine"          "Maryland"      
## [21] "Massachusetts"  "Michigan"       "Minnesota"      "Mississippi"   
## [25] "Missouri"       "Montana"        "Nebraska"       "Nevada"        
## [29] "New Hampshire"  "New Jersey"     "New Mexico"     "New York"      
## [33] "North Carolina" "North Dakota"   "Ohio"           "Oklahoma"      
## [37] "Oregon"         "Pennsylvania"   "Rhode Island"   "South Carolina"
## [41] "South Dakota"   "Tennessee"      "Texas"          "Utah"          
## [45] "Vermont"        "Virginia"       "Washington"     "West Virginia" 
## [49] "Wisconsin"      "Wyoming"

# Primeras filas de la base
head(USArrests)

##            Murder Assault UrbanPop Rape
## Alabama      13.2     236       58 21.2
## Alaska       10.0     263       48 44.5
## Arizona       8.1     294       80 31.0
## Arkansas      8.8     190       50 19.5
## California    9.0     276       91 40.6
## Colorado      7.9     204       78 38.7

Cada fila representa a cada estado de Estados Unidos, y en cada estado tiene las cuatro variables cuantitativas que relacionan al tipo de arresto.

¿Qué tipo de variables contiene el conjunto de datos?

# Estructura
str(USArrests)

## 'data.frame':    50 obs. of  4 variables:
##  $ Murder  : num  13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ...
##  $ Assault : int  236 263 294 190 276 204 110 238 335 211 ...
##  $ UrbanPop: int  58 48 80 50 91 78 77 72 80 60 ...
##  $ Rape    : num  21.2 44.5 31 19.5 40.6 38.7 11.1 15.8 31.9 25.8 ...

La base de datos esta conformada por cuatro variables cuantitativas continuas que se refiere al tipo de aresto, los cuales son por: homicidios, agresión, población urbana, violación.

¿Cuál será la variable dependiente del estudio y por qué?

# Nombres de variables
names(USArrests)

## [1] "Murder"   "Assault"  "UrbanPop" "Rape"

La variables dependiente es Assault, debido a que, esta variable hace referencia los arresto por agresión por cada 100000 habitantes.

¿Qué variables podrían utilizarse como predictoras en un modelo de regresión?

Las variables que se pueden utilizar como predictoras son: Murder, UrbanPop y Rape, porque aquellas ayudan a explicar el comportamiento de la variable Assault, con factores que inluyen sobre los niveles de arrestos por agresión.

Actividad 2. Estadística descriptiva

Calcule medidas de tendencia central, dispersión, mínimo, máximo y rango para las variables cuantitativas de la base. Enunciados de análisis:

Interprete el promedio y la mediana de la variable Assault.

# Promedio
mean(USArrests$Assault)

## [1] 170.76

# Mediana
median(USArrests$Assault)

## [1] 159

De acuerdo al análisis de la variable Assault que hace referencia a los arrestos por agresión, indica que en promedio hay 171 arrestos por cada 100000 habitantes. Mientras que la mediana con un valor de 159, indica que el valor valor no se aleja tanto al promedio.

Determine qué variable presenta mayor variabilidad y justifique su respuesta

# Desviación estándar de las variables
apply(USArrests, 2, sd)

##    Murder   Assault  UrbanPop      Rape 
##  4.355510 83.337661 14.474763  9.366385

La variable Assault presentó la mayor variabilidad, porque registró la desviación estándar más alta entre las demás variable, representando que los niveles de arrestos por agresión varian entre los demás estados.

Identifique posibles valores extremos a partir de los mínimos y máximos.

# Valores mínimos y máximos
apply(USArrests, 2, range)

##      Murder Assault UrbanPop Rape
## [1,]    0.8      45       32  7.3
## [2,]   17.4     337       91 46.0

Se observó que algunas variables tuvieron diferencias grandes entre el mínimo y el máximo, lo que sugirió la presencia de estados con niveles de criminalidad muy altos, ya que es alarmante tomando en cuenta que es por cada 100000 habitantes.

Explique qué significa la desviación estándar de Assault en el contexto del caso.

sd(USArrests$Assault)

## [1] 83.33766

Se observó que la desviación estándar de Assault fue 83.33766, lo que indicó que los arrestos por agresión presentaron bastante variación, ya que muchos valores se alejaron del promedio.

Redacte un párrafo descriptivo sobre el comportamiento general de la criminalidad observada en la base.

summary(USArrests)

##      Murder          Assault         UrbanPop          Rape      
##  Min.   : 0.800   Min.   : 45.0   Min.   :32.00   Min.   : 7.30  
##  1st Qu.: 4.075   1st Qu.:109.0   1st Qu.:54.50   1st Qu.:15.07  
##  Median : 7.250   Median :159.0   Median :66.00   Median :20.10  
##  Mean   : 7.788   Mean   :170.8   Mean   :65.54   Mean   :21.23  
##  3rd Qu.:11.250   3rd Qu.:249.0   3rd Qu.:77.75   3rd Qu.:26.18  
##  Max.   :17.400   Max.   :337.0   Max.   :91.00   Max.   :46.00

Se observó que los niveles de criminalidad variaron entre los estados analizados. La variable Assault presentó valores altos, con 337 arrestos por agresión, mientras que Murder y Rape también mostraron diferencias. Además, el porcentaje de población urbana fue elevado en varios estados, con un promedio al 66%.

Actividad 3. Análisis gráfico exploratorio

Construya gráficos que permitan analizar la distribución de Assault y su relación con las variables UrbanPop, Murder y Rape. Enunciados de análisis:

11.Describa la forma general de la distribución de Assault.

# Histograma de Assault
hist(USArrests$Assault,
     main = "Distribución de Assault",
     xlab = "Assault",
     col = "orange",
     border = "brown")

La variable dependiente tiene una asimetría a la derecha porque en ciertos estados hubo mas arresto de lo normal tambien en pocos estados se mostro arrestos superior a lo normal.

12.Explique si la relación visual entre UrbanPop y Assault parece débil, moderada o fuerte.

# Gráfico de dispersión

plot(USArrests$UrbanPop,
     USArrests$Assault,
     main = "UrbanPop vs Assault",
     xlab = "UrbanPop",
     ylab = "Assault",
     pch = 19,
     col = "gray")

La variable Assault y UrbanPop tiene una relación debil o moderada ya que en el grafico se puede observa que tiene bastante dispersión y no tiene tendencia lineal.Se debe que la población urbana no dio detalles por el arresto.

13.Explique si la relación visual entre Murder y Assault parece positiva o negativa.

# Gráfico de dispersión
plot(USArrests$Murder,
     USArrests$Assault,
     main = "Murder vs Assault",
     xlab = "Murder",
     ylab = "Assault",
     pch = 19,
     col = "gold")

La relación visual entre Murder y Assault se vio que es positiva esto debe al incremento de los homicidios provocando el aumento de los arrestos por agresión.

14.Compare cuál de las relaciones observadas parece más adecuada para iniciar un modelo de regresión simple.

# Matriz de gráficos
pairs(USArrests)

Las relaciones observadas más adecuada para iniciar un modelo de regresión simple son entre la variables Murder y Assault porque ambas tienes una tendencia lineal clara y menos dispersión la Murder puede ser la predictora.

15.Identifique posibles observaciones atípicas y explique cómo podrían afectar el modelo

# Boxplot de Assault
boxplot(USArrests$Assault,
        main = "Boxplot de Assault",
        col = "turquoise")

En algunos estados tiene particularidades altas de homicidios se les considera observaciones atípicas pueden afectar para la pendiente de la recta de regresión.

##Actividad 4. Matriz de correlación

Calcule e interprete la matriz de correlación entre las variables cuantitativas. Enunciados de análisis:

16.Identifique la variable con mayor correlación positiva con Assault.

# Correlaciones con Assault
cor(USArrests$Assault, USArrests)

##         Murder Assault  UrbanPop      Rape
## [1,] 0.8018733       1 0.2588717 0.6652412

La variable con mayor correlación la variable Murder con el 0.80 aproximada obteniendo una correlación positiva con Assault.Los estados con mayor homicidios tambien a registrar mayores arrestos en los estados.

17.Determine si UrbanPop tiene una relación fuerte o débil con Assault.

# Correlación entre  las variables UrbanPop y Assault
cor(USArrests$UrbanPop,
    USArrests$Assault)

## [1] 0.2588717

La variable urbanpop tiene una relacion debil comparando con la variable Assault ya que se puede ver que no es cercana al 1 el problema fue que la poblacion urbana no quizo dar información clara.

18.Analice si existe correlación relevante entre las variables independientes.

# Correlación de variables independientes
cor(USArrests[, c("Murder",
                  "UrbanPop",
                  "Rape")])

##              Murder   UrbanPop      Rape
## Murder   1.00000000 0.06957262 0.5635788
## UrbanPop 0.06957262 1.00000000 0.4113412
## Rape     0.56357883 0.41134124 1.0000000

Las variables independientes Murder,Rape y Urbanpop tienen una correlación relavante en especial la Murder y Urbapop,No podemos tomarlas para resolverun problema conplicado.

19.Explique por qué la correlación no implica necesariamente causalidad.

# Relaciones
pairs(USArrests)

Las cuatro variables cuantitativas tienen una correlación positiva esto no muestra que la una dependa de la otra o sea causada se visualizo una asociación entre ellas.

20.Argumente qué variables deberían incluirse inicialmente en el modelo múltiple.

# Variables seleccionadas
datos <- USArrests[, c("Assault",
                       "Murder",
                       "UrbanPop",
                       "Rape")]

head(datos)

##            Assault Murder UrbanPop Rape
## Alabama        236   13.2       58 21.2
## Alaska         263   10.0       48 44.5
## Arizona        294    8.1       80 31.0
## Arkansas       190    8.8       50 19.5
## California     276    9.0       91 40.6
## Colorado       204    7.9       78 38.7

Las variables independientes fueron correctas para empezar con el modelo de regresión lineal porque las tres presentaron relación

Actividad 5. Regresión lineal simple: modelo con UrbanPop

Ajuste un modelo de regresión lineal simple para explicar Assault a partir de UrbanPop. Modelo teórico: \[Assault_i = \beta_0 + \beta_1 UrbanPop_i + \epsilon_i \] Enunciados de análisis:

Escriba la ecuación estimada del modelo.

# Modelo simple
modelo1 <- lm(Assault ~ UrbanPop, data = USArrests)
# Resumen del modelo
summary(modelo1)

## 
## Call:
## lm(formula = Assault ~ UrbanPop, data = USArrests)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -150.78  -61.85  -18.68   58.05  196.85 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)  73.0766    53.8508   1.357   0.1811  
## UrbanPop      1.4904     0.8027   1.857   0.0695 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 81.33 on 48 degrees of freedom
## Multiple R-squared:  0.06701,    Adjusted R-squared:  0.04758 
## F-statistic: 3.448 on 1 and 48 DF,  p-value: 0.06948

Mediante el modelo aplicado, se obtuvo la siguiente ecuacion estimada:

\[ \widehat{Assault} = 73.0766 + 1.4904UrbanPop \] 22. Interprete el intercepto del modelo, considerando si tiene sentido práctico en este contexto.

Se observó que el intercepto fue 73.08 y la pendiente fue 1.49, indicando que al aumentar UrbanPop, también aumentaron los arrestos por agresión.

Interprete el coeficiente de UrbanPop.

El coeficiente de UrbanPop fue 1.49, lo que indicó que por cada aumento de una unidad en el porcentaje de población urbana, los arrestos por agresión aumentaron aproximadamente en 1.49 unidades en los estados analizados.

Determine si UrbanPop es estadísticamente significativo al 5%.

La variable UrbanPop no fue estadísticamente significativa al 5%, debido a que el valor p=0.06948 fue mayor que 0.05, lo cual no existe suficiente evidencia para afirmar que UrbanPop explicó significativamente los arrestos por agresión.

Interprete el R cuadrado del modelo

El \(R^2 = 0.067\) mostró que el modelo explicó el 6.7% de la variación de Assault, esto significa que UrbanPop tuvo una capacidad baja para explicar los arrestos por agresión.

Explique si este modelo es suficiente para explicar los arrestos por agresión.

El modelo no fue suficiente para explicar los arrestos por agresión, debido a que presentó un (R^2) bajo y UrbanPop no fue significativa al 5%.

Actividad 6. Regresión lineal simple alternativa: modelo con Murder

Ajuste un segundo modelo simple para explicar Assault a partir de Murder.

# Modelo simple con Murder
ms_murder <- lm(Assault ~ Murder, data = USArrests)

# Resumen del modelo
summary(ms_murder)

## 
## Call:
## lm(formula = Assault ~ Murder, data = USArrests)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -107.24  -36.35   -3.67   32.15  118.45 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    51.27      14.69   3.490  0.00105 ** 
## Murder         15.34       1.65   9.298  2.6e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 50.31 on 48 degrees of freedom
## Multiple R-squared:  0.643,  Adjusted R-squared:  0.6356 
## F-statistic: 86.45 on 1 and 48 DF,  p-value: 2.596e-12

Escriba la ecuación estimada del modelo.

Mediante el modelo aplicado, se obtuvo la siguiente ecuacion estimada:

\[ \widehat{Assault} = 51.27 + 15.34(Murder) \] 28. Interprete el coeficiente de Murder

El coeficiente de Murder fue 15.34, esto quiere decir que por cada aumento de una unidad en los arrestos por asesinato, los arrestos por agresión aumentaron aproximadamente en 16 aproximando al entero superior.

Determine si Murder es estadísticamente significativo al 5%

La variable Murder fue estadísticamente significativa al 5%, debido a que el valor p-value: 2.596e-12 que es menor a 0.05, lo que significa que los arrestos por asesinato tuvieron una relación significatia con los arrestos por agresión.

Compare el R cuadrado de este modelo con el modelo que usa UrbanPop.

El modelo con Murder presentó un \(R^2 = 0.643\) o un 64.3%, mayor que el modelo con UrbanPop \(R^2 = 6.7%\). Esto indicó que Murder explicó mejor la variación de los arrestos por agresión, abarcando que el modelo explica el 64.3% de los datos.

Explique cuál modelo simple resulta más conveniente desde el punto de vista estadístico y contextual.

El modelo con Murder fue el más adecuado, porque explicó mejor los arrestos por agresión con un 64.3% y además la variable resultó significativa. En comparación, UrbanPop tuvo poca capacidad para explicar el comportamiento de Assault con un 6.7%.

Actividad 7. Comparación de modelos simples

Compare los modelos simples utilizando R cuadrado, R cuadrado ajustado, AIC y BIC.

Enunciados de análisis:

Indique cuál modelo tiene mayor R cuadrado.

El modelo con Murder presentó el mayor \(R^2=0.643\), por lo que explicó mejor la variación de los arrestos por agresión ajustando un mejor modelo a los datos en comparación con el modelo que utilizó UrbanPop que fue menor.

Indique cuál modelo tiene menor AIC y menor BIC.

# Comparación de AIC y BIC
AIC(modelo1, ms_murder)

##           df      AIC
## modelo1    3 585.7055
## ms_murder  3 537.6727

BIC(modelo1, ms_murder)

##           df      BIC
## modelo1    3 591.4416
## ms_murder  3 543.4088

El modelo con Murder presentó menores valores de AIC=537.67 y BIC=543.41, en comparación con el modelo con UrbanPop. Esto indicó que el modelo con Murder tuvo un mejor ajuste para explicar los arrestos por agresión.

Explique si el mejor modelo debe elegirse únicamente por criterios numéricos.

Aunque el modelo con Murder tuvo mejores resultados numéricos, también se consideró importante que la variable estuviera relacionada con el problema de criminalidad que se analizó.

Argumente qué modelo simple recomendaría para una primera aproximación del problema.

Para una primera aproximación del problema, se recomendaría el modelo con Murder, porque explicó mejor los arrestos por agresión y presentó una relación significativa con la variable Assault con valor favorable de R^2.

Mencione al menos dos limitaciones de trabajar solo con regresión simple.

Trabajar solo con regresión simple tuvo algunas limitaciones, porque el modelo consideró una sola variable y dejó fuera otros factores que también pudieron influir en los arrestos por agresión. Además, los resultados pudieron ser menos precisos trabajando solo con el modelo simple.

##Actividad 8. Regresión lineal múltiple

Ajuste un modelo de regresión lineal múltiple para explicar Assault a partir de Murder, UrbanPop y Rape.

m_multiple <- lm(Assault ~ Murder + UrbanPop + Rape, data = USArrests)
summary(m_multiple)

## 
## Call:
## lm(formula = Assault ~ Murder + UrbanPop + Rape, data = USArrests)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -102.420  -21.226   -4.897   21.999  125.744 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -15.4520    31.8581  -0.485   0.6300    
## Murder       12.4700     1.8533   6.729 2.33e-08 ***
## UrbanPop      0.6304     0.5054   1.247   0.2186    
## Rape          2.2502     0.9432   2.386   0.0212 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 45.58 on 46 degrees of freedom
## Multiple R-squared:  0.7192, Adjusted R-squared:  0.7009 
## F-statistic: 39.27 on 3 and 46 DF,  p-value: 9.678e-13

Modelo teórico:

\[ Assault_i = \beta_0 + \beta_1 (Murder_i) + \beta_2 (UrbanPop_i) + \beta_3 (Rape_i) + \epsilon_i\]

Enunciados de análisis:

Escriba la ecuación estimada del modelo múltiple.

Se obtuvo la siguinte ecuación estimada del módelo múltiple:

\[ \widehat{Assault} = −15.45+ 12.47(Murder_i) + 0.63 (UrbanPop_i) + 2.25 (Rape_i)\]

Interprete el coeficiente de Murder manteniendo constantes UrbanPop y Rape.

El coeficiente de Murder fue 12.47 aproximando al entero superior de 13, lo que indicó que, manteniendo constantes UrbanPop y Rape, un aumento de una unidad en Murder incrementó aproximadamente en 12.47 o 13 unidades los arrestos por agresión.

Interprete el coeficiente de UrbanPop manteniendo constantes las demás variables.

El coeficiente de UrbanPop fue 0.63, y manteniendo constantes Murder y Rape, indicando un aumento en el porcentaje de población urbana estuvo asociado con un ligero aumento en los arrestos por agresión.

Interprete el coeficiente de Rape manteniendo constantes Murder y UrbanPop.

El coeficiente de Rape fue 2.25, lo que indicó que, manteniendo constantes Murder y UrbanPop, un aumento en los arrestos por violación se asoció con un incremento en los arrestos por agresión.

41.Determine qué variables son estadísticamente significativas al 5%.

# Modelo múltiple
modelo_multiple <- lm(Assault ~ Murder + UrbanPop + Rape,
                      data = USArrests)

# Resumen del modelo
summary(modelo_multiple)

## 
## Call:
## lm(formula = Assault ~ Murder + UrbanPop + Rape, data = USArrests)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -102.420  -21.226   -4.897   21.999  125.744 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -15.4520    31.8581  -0.485   0.6300    
## Murder       12.4700     1.8533   6.729 2.33e-08 ***
## UrbanPop      0.6304     0.5054   1.247   0.2186    
## Rape          2.2502     0.9432   2.386   0.0212 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 45.58 on 46 degrees of freedom
## Multiple R-squared:  0.7192, Adjusted R-squared:  0.7009 
## F-statistic: 39.27 on 3 and 46 DF,  p-value: 9.678e-13

Tras los resultados del modelo multiple,las variables independientes Murder y Rape es significativa al 5% y la variable UrbanPop tiene significancia menor aporta limitadamente.

42.Interprete el R cuadrado y el R cuadrado ajustado del modelo múltiple.

# R cuadrado
summary(modelo_multiple)$r.squared

## [1] 0.7191879

# R cuadrado ajustado
summary(modelo_multiple)$adj.r.squared

## [1] 0.7008741

El R cuadrado indicó la proporción de variabilidad de la variable dependiente que fue explicada por las variables independientes. El R cuadrado ajustado mostró una medida más precisa del ajuste del modelo, debido a que consideró el número de variables incluidas. Los dos resultados evidenciaron que el modelo múltiple presentó una capacidad explicativa considerablemente superior a los modelos simples.

43.Compare el modelo múltiple con los modelos simples y determine cuál ofrece mejor explicación estadística.

# Modelos simples
modelo_simple_urban <- lm(Assault ~ UrbanPop,
                          data = USArrests)

modelo_simple_murder <- lm(Assault ~ Murder,
                           data = USArrests)

# Comparación de R cuadrados
summary(modelo_simple_urban)$r.squared

## [1] 0.06701456

summary(modelo_simple_murder)$r.squared

## [1] 0.6430008

summary(modelo_multiple)$r.squared

## [1] 0.7191879

El modelo múltiple tiene una mejor explicación estadística en comparación con los modelos simples, debido a que presentó un mayor valor de R cuadrado que permite incorporar simultáneamente diferentes factores asociados a la criminalidad. Esto evidenció que la combinación de variables predictoras proporcionó una representación más completa del comportamiento de los arrestos por agresión.

44.Explique si todos los coeficientes tienen signos coherentes con el contexto analizado.

# Coeficientes del modelo
coef(modelo_multiple)

## (Intercept)      Murder    UrbanPop        Rape 
## -15.4519952  12.4700264   0.6304476   2.2501833

Todos los coeficientes estimados presentaron signos coherentes con el contexto analizado, debido a que las variables relacionadas con mayores niveles de homicidios mostraron efectos positivos sobre los arrestos por agresión.Al incrementarse variables como Murder y Rape, también aumentaron los valores esperados de Assault.

##Actividad 9. Evaluación de supuestos del modelo múltiple

Evalúe los supuestos básicos del modelo de regresión lineal múltiple mediante gráficos y pruebas estadísticas. Enunciados de análisis:

45.Analice gráficamente si los residuos presentan un patrón aleatorio.

# Configuración de ventana gráfica
par(mfrow = c(2,2))

# 1. Residuos vs Ajustados
plot(modelo_multiple,
     which = 1,
     col = "brown",
     pch = 19,
     main = "Residuos vs Ajustados")

# 2. QQ Plot
plot(modelo_multiple,
     which = 2,
     col = "black",
     pch = 19,
     main = "QQ Plot")

# 3. Scale-Location
plot(modelo_multiple,
     which = 3,
     col = "coral",
     pch = 19,
     main = "Scale-Location")

# 4. Distancia de Cook
plot(modelo_multiple,
     which = 4,
     col = "violet",
     pch = 19,
     main = "Distancia de Cook")

Los gráficos permitieron observar que los residuos se distribuyeron de manera relativamente aleatoria alrededor de cero, sin presentar patrones sistemáticos importantes.El modelo de regresión múltiple cumplió razonablemente con los supuestos de linealidad y homocedasticidad.

Los residuos mostraron un comportamiento aceptable en términos de normalidad y no se evidenciaron desviaciones severas que comprometieran la validez general del modelo.

46.Interprete la prueba de Shapiro-Wilk para normalidad de residuos.

# Prueba de normalidad
shapiro.test(residuals(modelo_multiple))

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_multiple)
## W = 0.9725, p-value = 0.2915

La prueba de Shapiro-Wilk permite evaluar la normalidad de los residuos del modelo.Ya que su valor p obtenido fue mayor a 5%, no se rechazó la hipótesis de normalidad, indicando que los residuos pudieron considerarse aproximadamente normales.

47.Interprete la prueba de Breusch-Pagan para homocedasticidad.

# Cargar librería
library(lmtest)

## Warning: package 'lmtest' was built under R version 4.5.3

## Cargando paquete requerido: zoo

## Warning: package 'zoo' was built under R version 4.5.3

## 
## Adjuntando el paquete: 'zoo'

## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

# Prueba Breusch-Pagan
bptest(modelo_multiple)

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_multiple
## BP = 4.6168, df = 3, p-value = 0.2021

La prueba de Breusch-Pagan no existio evidencias suficientes de heterocedasticidad, Ya que el valor p resultó mayor a 0.05 la varianza de los residuos permaneció relativamente constante.

48.Interprete los valores VIF y determine si existe multicolinealidad relevante.

# Cargar librería
library(car)

## Warning: package 'car' was built under R version 4.5.3

## Cargando paquete requerido: carData

## Warning: package 'carData' was built under R version 4.5.3

# Valores VIF
vif(modelo_multiple)

##   Murder UrbanPop     Rape 
## 1.536825 1.262276 1.840863

Los valores VIF fueron bajos y estuvieron dentro de rangos aceptables, indico ausencia de problemas graves de multicolinealidad entre las variables independientes como UrbanPop, Murder y Rape incluidas en el modelo.

49.Identifique si existen observaciones influyentes en los gráficos de diagnóstico.

# Distancia de Cook
plot(cooks.distance(modelo_multiple),
     type = "h",
     col = "salmon",
     lwd = 2,
     main = "Distancia de Cook",
     ylab = "Cook's Distance",
     xlab = "Observaciones")

# Línea de referencia
abline(h = 4/length(modelo_multiple$fitted.values),
       col = "green",
       lty = 2,
       lwd = 2)

Se identifico algunas observaciones con niveles de influencia relativamente altos dentro del modelo.Las observaciones no parecieron afectar de manera crítica la estabilidad general de los coeficientes estimados.

50.Redacte una conclusión general sobre el cumplimiento de los supuestos del modelo.

El modelo de regresión múltiple cumplió razonablemente con regresión lineal. Los residuos mostraron un comportamiento adecuado no se evidenciaron problemas importantes de heterocedasticidad ni multicolinealidad y la normalidad de los residuos resultó aceptable.

El modelo pudo considerarse válido para realizar inferencias y predicciones dentro de lo analizado.

##Actividad 10. Predicción e interpretación aplicada

Utilice el modelo múltiple para estimar el nivel esperado de arrestos por agresión en un estado hipotético con las siguientes características: Murder = 8, UrbanPop = 70 y Rape = 25.

51.Reporte la predicción puntual obtenida para Assault.

nuevo_estado <- data.frame(
Murder = 8,
UrbanPop = 70,
Rape = 25
)
predict(modelo_multiple, nuevo_estado, interval = "confidence")

##        fit      lwr      upr
## 1 184.6941 170.3306 199.0577

predict(modelo_multiple, nuevo_estado, interval = "prediction")

##        fit      lwr      upr
## 1 184.6941 91.83006 277.5582

La predicción puntual obtenida indicó el nivel esperado de arrestos por agresión para un estado hipotético con las características especificadas de homicidios, población urbana y violaciones.

52.Interprete el intervalo de confianza.

# Intervalo de confianza
predict(modelo_multiple,
        nuevo_estado,
        interval = "confidence")

##        fit      lwr      upr
## 1 184.6941 170.3306 199.0577

El intervalo de confianza presento rango dentro se espera encontrar el promedio real de arrestos por agresión para estados con características similares al estado hipotético analizado.

53.Interprete el intervalo de predicción.

# Intervalo de predicción
predict(modelo_multiple,
        nuevo_estado,
        interval = "prediction")

##        fit      lwr      upr
## 1 184.6941 91.83006 277.5582

El intervalo de predicción presento el rango dentro del cual pudo encontrarse un valor individual futuro de arrestos por agresión para un estado con su respectiva caracteristica.

54.Explique la diferencia entre intervalo de confianza e intervalo de predicción.

El intervalo de confianza fue utilizada para estimar la media poblacional esperada, mientras que el intervalo de predicción incorporó además la variabilidad individual de futuras observaciones. Por esta razón, el intervalo de predicción resultó más amplio que el intervalo de confianza.

55.Explique cómo podría usar esta predicción una empresa multinacional dedicada al análisis de riesgo.

La empresa multinacional puede utilizar la predicción obtenida para identificar estados con mayores niveles potenciales de los homicidios y riesgo social.Con las variables como Murder, UrbanPop y Rape, el modelo permitió estimar el comportamiento esperado de los arrestos por agresión facilitando la toma de decisiones relacionadas con inversión, expansión territorial y seguridad. Ayudó a evaluar qué zonas presentaron mayores riesgos operativos, permitiendo implementar estrategias preventivas, fortalecer medidas de seguridad y planificar de manera más eficiente sus actividades empresariales.Los intervalos de confianza y predicción permitieron considerar la incertidumbre asociada por cada uno de los homicidios a las estimaciones realizadas.

Caso de estudio: análisis de criminalidad con la base USArrests

Alexis Galarza, Erika Alajo

2026-05-08