Carga y vista general de los datos

library(readxl)
DATOS_VIOLENCIA_INTRAFAMILIAR_COLOMBIA_OFICIAL <- read_excel("C:/Users/Mariana/Downloads/DATOS VIOLENCIA INTRAFAMILIAR COLOMBIA OFICIAL.xlsx")
View(DATOS_VIOLENCIA_INTRAFAMILIAR_COLOMBIA_OFICIAL)
df <- DATOS_VIOLENCIA_INTRAFAMILIAR_COLOMBIA_OFICIAL
summary(df)
##  Arma o medio de agresion Departamento        Municipio        
##  Length:190               Length:190         Length:190        
##  Class :character         Class :character   Class :character  
##  Mode  :character         Mode  :character   Mode  :character  
##                                                                
##                                                                
##                                                                
##     Genero          Edad de la Victima Cantidad de sucesos
##  Length:190         Min.   : 7.00      Min.   : 1.000     
##  Class :character   1st Qu.:24.00      1st Qu.: 1.000     
##  Mode  :character   Median :33.00      Median : 1.000     
##                     Mean   :34.17      Mean   : 1.484     
##                     3rd Qu.:45.00      3rd Qu.: 1.000     
##                     Max.   :76.00      Max.   :10.000     
##  Numero de personas por hogar Estrato Socioeconomico de la victima
##  Min.   : 1.000               Min.   :1.000                       
##  1st Qu.: 4.000               1st Qu.:1.000                       
##  Median : 5.000               Median :2.000                       
##  Mean   : 4.937               Mean   :1.932                       
##  3rd Qu.: 6.000               3rd Qu.:2.000                       
##  Max.   :12.000               Max.   :6.000                       
##  Inestabilidad Residencial Indice de pobreza
##  Length:190                Min.   : 2.40    
##  Class :character          1st Qu.:14.29    
##  Mode  :character          Median :24.50    
##                            Mean   :27.92    
##                            3rd Qu.:39.72    
##                            Max.   :73.40

Estadísticas descriptivas


Índice de pobreza:

sd(df$`Indice de pobreza`)
## [1] 17.15635


Número de personas por hogar:

sd(df$`Numero de personas por hogar`)
## [1] 1.670222


Cantidad de sucesos:

sd(df$`Cantidad de sucesos`)
## [1] 1.32428


Edad de la víctima:

sd(df$`Edad de la Victima`)
## [1] 14.76541


Gráficos descriptivos

barplot(table(df$Genero),
main = 'Genero de las victimas',
xlab = 'Genero',
ylab = 'Frecuencia',
col = 'darkblue')

barplot(table(df$`Estrato Socioeconomico de la victima`),
main = 'Estrato socioeconomico de las victimas',
xlab = 'Estrato',
ylab = 'Frecuencia',
col = 'darkblue')

barplot(table(df$`Arma o medio de agresion`),
main = 'Tipo de arma utilizada',
xlab = 'Arma',
ylab = 'Frecuencia',
col = 'darkblue')

barplot(table(df$`Inestabilidad Residencial`),
main = 'Inestabilidad residencial',
xlab = 'Existe inestabilidad',
ylab = 'Frecuencia',
col = 'darkblue')

Correlación: Personas por hogar vs Cantidad de sucesos

cor_test1 <- cor.test(df$`Numero de personas por hogar`,
df$`Cantidad de sucesos`)
cor_test1
## 
##  Pearson's product-moment correlation
## 
## data:  df$`Numero de personas por hogar` and df$`Cantidad de sucesos`
## t = 1.2785, df = 188, p-value = 0.2027
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.05017676  0.23212526
## sample estimates:
##        cor 
## 0.09283971
plot(df$`Numero de personas por hogar`,
df$`Cantidad de sucesos`,
main = 'Gráfico de dispersión: Numero de personas por hogar vs Cantidad de sucesos',
xlab = 'Numero de personas por hogar',
ylab = 'Cantidad de sucesos de VIF',
col = 'darkblue')

Asosiación entre Género vs Arma utilizada

tabla1 <- table(df$Genero, df$`Arma o medio de agresion`)
chisq.test(tabla1)
## Warning in chisq.test(tabla1): Chi-squared approximation may be incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  tabla1
## X-squared = 3.9602, df = 3, p-value = 0.2658


Asosiación entre Edad de la víctima vs Cantidad de sucesos de VIF

tabla2 <- table(df$`Edad de la Victima`, df$`Cantidad de sucesos`)
chisq.test(tabla2)
## Warning in chisq.test(tabla2): Chi-squared approximation may be incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  tabla2
## X-squared = 663.55, df = 392, p-value = 2.774e-16


Modelo lineal: Índice de pobreza y cantidad de sucesos

modelo1 <- lm(`Cantidad de sucesos` ~ `Indice de pobreza`, data = df)
summary(modelo1)
## 
## Call:
## lm(formula = `Cantidad de sucesos` ~ `Indice de pobreza`, data = df)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.7753 -0.6193 -0.4286 -0.1127  8.2446 
## 
## Coefficients:
##                      Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          1.828333   0.181963  10.048   <2e-16 ***
## `Indice de pobreza` -0.012327   0.005557  -2.218   0.0277 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.311 on 188 degrees of freedom
## Multiple R-squared:  0.0255, Adjusted R-squared:  0.02032 
## F-statistic:  4.92 on 1 and 188 DF,  p-value: 0.02774
plot(df$`Indice de pobreza`,
     df$`Cantidad de sucesos`,
     main = "Regresion Lineal: Sucesos vs Indice de Pobreza",
     xlab = "Indice de pobreza",
     ylab = "Cantidad de sucesos",
     pch = 19,
     col = "darkblue")

# Línea de regresión
abline(modelo1, col = "red", lwd = 2)


Modelo lineal: Estrato socioeconómico e Inestabilidad residencial

modelo2 <- lm(df$`Estrato Socioeconomico de la victima` ~ df$`Inestabilidad Residencial`)
summary(modelo2)
## 
## Call:
## lm(formula = df$`Estrato Socioeconomico de la victima` ~ df$`Inestabilidad Residencial`)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.1615 -0.9795 -0.1615  0.5667  3.8385 
## 
## Coefficients:
##                                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                       2.16154    0.09666  22.363  < 2e-16 ***
## df$`Inestabilidad Residencial`Si -0.72821    0.17201  -4.234 3.59e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.102 on 188 degrees of freedom
## Multiple R-squared:  0.08704,    Adjusted R-squared:  0.08218 
## F-statistic: 17.92 on 1 and 188 DF,  p-value: 3.594e-05
boxplot(df$`Estrato Socioeconomico de la victima` ~ 
        df$`Inestabilidad Residencial`,
        main = "Estrato segun Inestabilidad Residencial",
        xlab = "Inestabilidad Residencial",
        ylab = "Estrato",
        col = c("darkblue", "#BFEFFF"))

# Convertir variable Inestabilidad Residencial a factor
df$`Inestabilidad Residencial` <- as.factor(df$`Inestabilidad Residencial`)

plot(df$`Estrato Socioeconomico de la victima`,
df$`Cantidad de sucesos`,
col = ifelse(df$`Inestabilidad Residencial` == "Si", "red", "blue"),
pch = 19,
xlab = "Estrato Socioeconomico",
ylab = "Cantidad de sucesos",
main = "Dispersion: Estrato e Inestabilidad vs Sucesos")

legend("topright",
legend = c("Inestabilidad: Si", "Inestabilidad: No"),
col = c("red", "blue"),
pch = 19)

# Añadir modelo lineal
modelo3 <- lm(`Cantidad de sucesos` ~ `Estrato Socioeconomico de la victima` + `Inestabilidad Residencial`, data = df)
abline(lm(`Cantidad de sucesos` ~ `Estrato Socioeconomico de la victima`, data = df), col = "darkgreen", lwd = 2)

#Mostar resumen del modelo
summary(modelo3)
## 
## Call:
## lm(formula = `Cantidad de sucesos` ~ `Estrato Socioeconomico de la victima` + 
##     `Inestabilidad Residencial`, data = df)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.6431 -0.4939 -0.4329 -0.3110  8.5061 
## 
## Coefficients:
##                                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                             1.55483    0.22258   6.985 4.83e-11 ***
## `Estrato Socioeconomico de la victima` -0.06095    0.08779  -0.694    0.488    
## `Inestabilidad Residencial`Si           0.14920    0.21668   0.689    0.492    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.327 on 187 degrees of freedom
## Multiple R-squared:  0.007201,   Adjusted R-squared:  -0.003417 
## F-statistic: 0.6782 on 2 and 187 DF,  p-value: 0.5088