Comparación de Proporciones: Uso de Factor de Expansión para encuestas, Cálculo de Proporciones, Prueba de Hipótesis de Diferencia de Proporciones y Cálculo de Intervalos de Confianza

Introducción

El presente documento es un anexo metodológico del documento publicado por Emiliano Montalvo Vásquez: “Triangulando la Percepción de Inseguridad en el Triángulo Dorado” publicado por Emiliano Montalvo Vásquez y Rafael Fernández Soto que busca conocer la diferencia entre la percepción de inseguridad en el Triángulo Dorado de la droga conformado por Chihuahua, Durango y Sinaloa, y la percepción de inseguridad en el resto del país.

Para esto se hará uso de los datos de la Encuesta Nacional de Victimización y Percepción sobre Seguridad Pública (ENVIPE) del INEGI, la cual contiene indicadores que muestran la percepción de inseguridad en localidades que han implementado diversos tipos de medidas para intentar disminuir la inseguridad.

Descarga de los datos.

Para accesar a los datos de la ENVIPE más reciente se tendrá que accesar al sigueinte link: https://www.inegi.org.mx/programas/envipe/2023/#microdatos el cuál contiene un enlace a los microdatos de la encuesta, así como a un documento descriptor de archivos, como se muestra a continuación:

Una vez hecho esto, se podrá descargar la base de datos en el formato de su preferencia. El archivo descargado contiene múltiples bases de datos, para conocer cuál es pertinente utilizar se deberá leer el descriptor de archivos del siguiente enlace: https://www.inegi.org.mx/contenidos/programas/envipe/2023/doc/fd_envipe2023.pdf el cual en su página 7 , describe el contenido de cada tabla, especifica el número de variables que la componen, así como las variables llave que la relacionan con las demás tablas.

La base a utilizar en este análisis debido a su naturaleza es TPer_Vic1, la cual contiene 182 variables correspondientes a la percepción de seguridad pública y el desempeño institucional.

A continuación se describe la metodología empleada para el análisis:

Definición de librerías

Primero se definirán las librerías que contienen las funciones utilizadas en el análisis utilizando la siguiente línea de código:

library (dplyr)

## Warning: package 'dplyr' was built under R version 4.2.3

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library (ggplot2)

## Warning: package 'ggplot2' was built under R version 4.2.3

library(srvyr)

## Warning: package 'srvyr' was built under R version 4.2.3

## 
## Attaching package: 'srvyr'

## The following object is masked from 'package:stats':
## 
##     filter

library (scales)

## Warning: package 'scales' was built under R version 4.2.3

library (ggthemes)

## Warning: package 'ggthemes' was built under R version 4.2.3

Las funciones específicas de las librerías son las siguientes: - dplyr: Facilita la manipulación eficiente de datos mediante funciones que permiten filtrar, transformar y resumir conjuntos de datos de manera intuitiva - ggplot2: Librería de visualización que ofrece una gramática de gráficos, permitiendo la creación de gráficos complejos y personalizados de manera sencilla y flexible. - srvyr: Proporciona herramientas para realizar análisis de encuestas en R, permitiendo el manejo de ponderaciones y el cálculo de estadísticas descriptivas y de inferencia en datos de encuestas complejas. - scales: Proporciona escalas para los gráficos de ggplot2 - ggthemes: Proporciona temas y figuras adicionales para los gráficos en ggplot2

Lectura de la base de datos

Ya que las librerías están cargadas se procederá a leer el archivo en formato csv que contiene la base de datos que se utilizará en la encuesta

Envipe_2023 <- read.csv("ENVIPE_2023.csv")

Relevancia del Factor de Expansión.

Al hacer esto observamos que la base contiene 91,984 filas o registros y 183 columnas o campos. Es posible comenzar a analizar la base de datos, sin emabrgo, para lograr tener estadísticas adecuadas, es necesario aplicarle el Factor de Expansión.

El factor de expansión, también conocido como ponderación, es un valor asignado a cada observación en una base de datos de encuestas para ajustar la representatividad de la muestra respecto a la población total. En el contexto de R y las encuestas, es esencial tener en cuenta este factor al analizar datos, ya que las muestras seleecionadas pueden tener ciertos sesgos. El factor de expansión compensa estos sesgos y permite extrapolar los resultados de la muestra a la población total, mejorando la precisión y validez de los análisis estadísticos. Ignorar el factor de expansión puede conducir a conclusiones erróneas y no representativas, especialmente en estudios que involucran datos de encuestas complejas o estratificadas. Por lo tanto, su inclusión en el análisis es crucial para obtener resultados más precisos y generalizables.

El descriptor de archivos indica que la ENVIPE 2023 cuenta con ocho factores de expansión. -(FAC_VIV): Asociado a la vivienda -(FAC_HOG): Asociado a los hogares -(FAC_ELE): Personas de 18 años y más -(FAC_DEL): Expande cada delito captado en el módulo sobre victimización

Además, debido al interés para obtener estimaciones sobre determinados indicadores de la ENVIPE 2023 en ciudades o áreas metropolitanas, se han añadido:

-(FAC_VIV_AM): Factor vivienda de área metropolitana -(FAC_HOG_AM): Factor hogar de área metropolitana -(FAC_ELE_AM): Factor de personas elegidas en el área metropolitana -(FAC_DEL_AM): Factor delito del área metropolitana.

Estos cuatro factores son análogos a los asociados a los hogares, pero ajustados a las 33 áreas metropolitanas que se detallan en la tabla posterior.

Ejemplo de uso del factor expansión

Una vez aclarada la relevancia del factor de expansión se procederá a realizar un ejemplo para conocer la diferencia con el cálculo de la base de datos normal y el cálculo una vez aplicado el factor de expansión.

Para esto, primero se procederá a construir una base de datos que únicamente contenga la pregunta: ¿Cuánta confianza le inspira el ejército? contenida en la variable AP5_4_08 y los 4 factores de expansión disponibles en la base de datos: -(FAC_ELE): Personas de 18 años y más -(FAC_HOG): Asociado a los hogares -(FAC_HOG_AM): Factor hogar de área metropolitana -(FAC_ELE_AM): Factor de personas elegidas en el área metropolitana

Esto lo hace el código a continuación

E1 <- select(Envipe_2023,AP5_4_08, FAC_ELE,FAC_HOG, FAC_HOG_AM, FAC_ELE_AM) # Creación de la base de datos.
E1 <- na.omit(E1) # Omisión de valores faltantes
E1 <- filter(E1,AP5_4_08 != "9") # Omisión del "9" el cual indica: No sabe / no responde

Ya con esta base de datos se podría hacer un cálculo de proporciones para ver cuantas personas confían en el ejército, sumando las proporciones de 1 y 2 despúes de correr esta línea de código que saca las proporciones de cada valor:

# Calcula las proporciones
proporciones <- E1 %>%
  group_by(AP5_4_08) %>%
  summarize(proporcion = n() / nrow(E1))

# Muestra las proporciones
print(proporciones)

## # A tibble: 4 × 2
##   AP5_4_08 proporcion
##      <int>      <dbl>
## 1        1     0.410 
## 2        2     0.456 
## 3        3     0.0864
## 4        4     0.0476

Con <-(0.40969439*100) + (0.45625626*100)
cat("El", Con, "% de la población confía en el ejército")

## El 86.59507 % de la población confía en el ejército

Esta primera proporción no coincide con la presentada en documentos oficiales, que marcan la confianza en el Ejército con 87.2% (INEGI, 2023c). Para acercarnos más a este dato, podemos utilizar funciones de la librería survey.

Primero, se la función as_survey_design para crear un diseño de encuesta (svy) especificando que se deben usar los factores de expansión contenidos en la variable FAC_ELE

svy <- E1 %>% 
  as_survey_design(weights = FAC_ELE)

Depsués de esto, se calcula la población total mayor de 18 años utilizando la función survey_total.

svy %>%
      summarise(survey_total(vartype = NULL))

## # A tibble: 1 × 1
##       coef
##      <dbl>
## 1 36171110

Esto resulta en que la población total mayor de 18 años es de 36,171,110.

Una vez hecho esto fue se calcula la proporción, o media ponderada, para cada categoría de la variable AP5_4_08 utilizando la función survey_mean

svy %>%
  group_by(AP5_4_08) %>%
  summarise(prop = survey_mean())

## # A tibble: 4 × 3
##   AP5_4_08   prop prop_se
##      <int>  <dbl>   <dbl>
## 1        1 0.411  0.00411
## 2        2 0.460  0.00418
## 3        3 0.0847 0.00231
## 4        4 0.0446 0.00156

Lo anterior nos deja la siguiente proporción debido al redondeo:

r = (0.41103383     *100) + (0.45970616 *100)
cat("El",r,"% de la población confía en el ejército")

## El 87.074 % de la población confía en el ejército

Al considerar el rango de error de las proporciones contenidos en la tercera columna, podemos asegurar que el uso de este paquete nos acerca a resultados más precisos. Una vez realizado este pequeño ejercicio, se procederá a realizar el análisis para la envipe

Creación y Limpieza de Bases de Datos.

Este código crea una base de datos con las siguientes columnas de interés para el análisis:

-EDAD: Número de años cumplidos. -CVE_ENT: Clave de la Entidad. -NOM_ENT: Nombre de la Entidad. -AP4_5_02: Existencia de pandillerismo violento al rededor de la vivienda. -AP4_9_4: Organización Vecinal para resolver el Pandillerismo Violento. -AP5_1_05: Existencia de medidas de atención a los jóvenes para disminuir el pandillerismo y delincuencia juvenil. -AP4_2_03: Narcotráfico como principal preocupación.
De los temas que le voy a mostrar, ¿cuáles son los tres que le preocupan más? -AP5_1_12:Existencia de medidas para combatir el narcotráfico. -(FAC_ELE): Factor de expansión de personas de 18 años y más.

Envipe_2023_limpia <- select(Envipe_2023, EDAD, CVE_ENT,NOM_ENT,AP4_5_02, AP4_9_4, AP5_1_05,AP4_2_03,AP5_1_12, FAC_ELE)
head(Envipe_2023_limpia)

##   EDAD CVE_ENT        NOM_ENT AP4_5_02 AP4_9_4 AP5_1_05 AP4_2_03 AP5_1_12
## 1   48       1 AGUASCALIENTES        0      NA        3        0        2
## 2   58       1 AGUASCALIENTES        0      NA        2        0        2
## 3   40       1 AGUASCALIENTES        0      NA        3        0        3
## 4   38       1 AGUASCALIENTES        0      NA        1        0        1
## 5   54       1 AGUASCALIENTES        0      NA        2        0        2
## 6   40       1 AGUASCALIENTES        1       2        3        1        3
##   FAC_ELE
## 1     955
## 2     716
## 3     477
## 4     818
## 5     204
## 6     409

Creación de base de datos nacional.

Con la siguiente línea de código se creará una base de datos filtrada que NO contenga los estados de Chihuahua, Durango y Sinaloa.

Nacional <- filter(Envipe_2023_limpia, CVE_ENT != "25", CVE_ENT != "10", CVE_ENT != "8")
head(Nacional)

##   EDAD CVE_ENT        NOM_ENT AP4_5_02 AP4_9_4 AP5_1_05 AP4_2_03 AP5_1_12
## 1   48       1 AGUASCALIENTES        0      NA        3        0        2
## 2   58       1 AGUASCALIENTES        0      NA        2        0        2
## 3   40       1 AGUASCALIENTES        0      NA        3        0        3
## 4   38       1 AGUASCALIENTES        0      NA        1        0        1
## 5   54       1 AGUASCALIENTES        0      NA        2        0        2
## 6   40       1 AGUASCALIENTES        1       2        3        1        3
##   FAC_ELE
## 1     955
## 2     716
## 3     477
## 4     818
## 5     204
## 6     409

Al desplegar la tabla observamos que existen muchos valores faltantes. Estos se eliminan con la siguiente línea de código:

Nacional <- na.omit(Nacional) # Omisión de Valores Faltantes

Esto nos deja con una base de datos a nivel nacional sin los tres estados que conforman el triángulo dorado.

Creación de base de datos Triángulo Dorado.

También será necesario crear una base de datos que contenga exclusivamente los datos de las entidades pertenecientes al triángulo dorado: Sinaloa (25), Durango (10), y Chihuahua (8). Esto se hace con la siguiente línea de código que selecciona en la base de datos limpia las claves de las 3 entidades pertenecientes a esta región.

Triangulo_Dorado <- filter(Envipe_2023_limpia, CVE_ENT %in% c("25", "10", "8"))
head(Triangulo_Dorado)

##   EDAD CVE_ENT   NOM_ENT AP4_5_02 AP4_9_4 AP5_1_05 AP4_2_03 AP5_1_12 FAC_ELE
## 1   54       8 CHIHUAHUA        1      NA        3        0        3     592
## 2   43       8 CHIHUAHUA        0      NA        2        1        1     296
## 3   20       8 CHIHUAHUA        0      NA        1        0        2     296
## 4   33       8 CHIHUAHUA        1       1        3        0        1     592
## 5   34       8 CHIHUAHUA        1      NA        3        1        2     650
## 6   31       8 CHIHUAHUA        0      NA        3        0        3     325

Al desplegar la tabla observamos que existen muchos valores faltantes. Estos se eliminan con la siguiente línea de código:

Triangulo_Dorado <- na.omit(Triangulo_Dorado) # Omisión de Valores Faltantes

Creación de objetos svy

Finalmente, una vez filtradas las bases de datos, se les aplicará el factor de expansión a ambas con las siguientes líneas de código:

Nacional_svy <- Nacional %>% 
  as_survey_design(weights = FAC_ELE)

Total nacional:

Nacional_svy %>% 
 summarise(survey_total(vartype = NULL))

## # A tibble: 1 × 1
##       coef
##      <dbl>
## 1 14496332

El total de la población a nivel nacional encuestada una vez eliminadas las observaciones faltantes es de 14,496,332.

Se repite el mismo código con el triángulo dorado

Triangulo_Dorado_svy <- Triangulo_Dorado %>% 
  as_survey_design(weights = FAC_ELE)

Total del tríangulo dorado

Triangulo_Dorado_svy %>% 
 summarise(survey_total(vartype = NULL))

## # A tibble: 1 × 1
##     coef
##    <dbl>
## 1 666817

El total de la población en el Triángulo Dorado encuestada una vez eliminadas las observaciones faltantes es de 666,817.

Una hecho esto, finalmente, es posible comparar las proporciones entre ambos:

Análisis de pregunta AP4_5_02: ¿Sabe usted o ha escuchado si en los alrededores de su vivienda Existe pandillerismo o bandas violentas?

Para responder esta pregunta a nivel nacional, se utiliza el siguiente código el cual agrupa las respuestas para dicha pregunta

```r
Nacional_svy %>%
  group_by(AP4_5_02) %>%
  summarise(prop = survey_mean())
```

```
## # A tibble: 2 × 3
##   AP4_5_02  prop prop_se
##      <int> <dbl>   <dbl>
## 1        0 0.269 0.00583
## 2        1 0.731 0.00583
```

El 73.05% de la población a nivel nacional que no está en el triangulo dorado considera que Sí han obsevrado pandillerismo violento en los alrededores de su vivienda.

Este procedimiento se repite para el triángulo dorado:

```r
Triangulo_Dorado_svy %>%
  group_by(AP4_5_02) %>%
  summarise(prop = survey_mean())
```

```
## # A tibble: 2 × 3
##   AP4_5_02  prop prop_se
##      <int> <dbl>   <dbl>
## 1        0 0.318  0.0171
## 2        1 0.682  0.0171
```

El 68.18% de la población en el triangulo dorado considera que Sí han obsevrado pandillerismo violento en los alrededores de su vivienda.

Para construir un gráfico de esto, es necesario crear una tabla con estos valores:

# Crear la tabla con los valores originales
AP4_5_02 <- data.frame(
  Pandillerismo = c ("No", "Sí"),
  Nacional = c(0.2694767, 0.7305233),
  Triangulo_Dorado = c (0.3181847, 0.6818153)
)

# Imprimir la tabla
print(AP4_5_02)

##   Pandillerismo  Nacional Triangulo_Dorado
## 1            No 0.2694767        0.3181847
## 2            Sí 0.7305233        0.6818153

Primeramente se crea un gráfico que refleje la situación a nivel nacional utilizando el siguiente código de ggplot:

# Crear el gráfico de barras
AP4_5_02_nac <- ggplot(AP4_5_02, aes(x = Pandillerismo, y = Nacional, fill = Pandillerismo)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Pandillerismo: Nivel nacional", y = "Frecuencia", x = NULL)+
  scale_y_continuous(labels = label_percent())+
   geom_text(aes(label = scales::percent(Nacional)), 
            position = position_dodge(width = 0.9),
            vjust = -0.5,
            color = "black", size = 3.7, fontface = "bold") +
  theme_few() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1),
              legend.position = "none")+
  scale_fill_manual(values = c("No" = "darkred", "Sí" = "darkgreen")) 

print(AP4_5_02_nac)

Se repite el chunk con el Triangulo dorado, cambiando únicamente el agrumento “y=” al inicio de la instrucción aes()

# Crear el gráfico de barras
AP4_5_02_td <- ggplot(AP4_5_02, aes(x = Pandillerismo, y = Triangulo_Dorado, fill = Pandillerismo)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Pandillerismo: Triángulo Dorado", y = "Frecuencia", x = NULL)+
  scale_y_continuous(labels = label_percent())+
  geom_text(aes(label = scales::percent(Triangulo_Dorado)), 
            position = position_dodge(width = 0.9),
            vjust = -0.5,
            color = "black", size = 3.7, fontface = "bold") +
  theme_few() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1),
              legend.position = "none")+
  scale_fill_manual(values = c("No" = "darkred", "Sí" = "darkgreen"))

print(AP4_5_02_td)

Una vez que se generaron ambos gráficos, se procederá a juntarlos con la finción cowplot

AP4_5_02_graf <- cowplot::plot_grid(AP4_5_02_td, AP4_5_02_nac, ncol = 2)
print (AP4_5_02_graf)

Este primer gráfico demuestra que se reportan mayores niveles de pandillerismo a nivel nacional que en los estados que forman parte del triángulo dorado.

Análisis de pregunta AP4_9_4: ¿Se han organizado la mayoría de los vecinos para resolver los problemas de pandillerismo violento?

Posibles respuestas: 1 Sí, 2 No Sabe,3 No se realizó, 9 No responde

Para responder esta pregunta a nivel nacional, se utiliza el siguiente código el cual agrupa las respuestas para dicha pregunta

```r
Nacional_svy %>%
  group_by(AP4_9_4) %>%
  summarise(prop = survey_mean())
```

```
## # A tibble: 3 × 3
##   AP4_9_4   prop prop_se
##     <int>  <dbl>   <dbl>
## 1       1 0.275  0.00574
## 2       2 0.708  0.00586
## 3       9 0.0178 0.00172
```

El 70.75% de la población a nivel nacional que no está en el triangulo dorado considera que los vecinos No se han organizado para resolver los problemas de pandillerismo violento en su colonia.

Este procedimiento se repite para el triángulo dorado:

```r
Triangulo_Dorado_svy %>%
  group_by(AP4_9_4) %>%
  summarise(prop = survey_mean())
```

```
## # A tibble: 3 × 3
##   AP4_9_4   prop prop_se
##     <int>  <dbl>   <dbl>
## 1       1 0.190  0.0135 
## 2       2 0.783  0.0145 
## 3       9 0.0264 0.00627
```

El 78.32% de la población en el triangulo dorado considera que los vecinos No se han organizado para resolver los problemas de pandillerismo violento en su colonia.

Para construir un gráfico de esto, es necesario crear una tabla con estos valores:

# Crear la tabla con los valores originales
AP4_9_4 <- data.frame(
  Vecinos = c ("Sí", "No sé", "No contestó"),
  Nacional = c(0.27455532, 0.70759907, 0.01784562),
  Triangulo_Dorado = c (0.19037757  , 0.78320589    , 0.02641654)
)

# Imprimir la tabla
print(AP4_9_4)

##       Vecinos   Nacional Triangulo_Dorado
## 1          Sí 0.27455532       0.19037757
## 2       No sé 0.70759907       0.78320589
## 3 No contestó 0.01784562       0.02641654

Primeramente se crea un gráfico que refleje la situación a nivel nacional utilizando el siguiente código de ggplot:

# Crear el gráfico de barras
AP4_9_4_nac <- ggplot(AP4_9_4, aes(x = Vecinos, y = Nacional, fill = Vecinos)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Organización Vecnial: Nac", y = "Frecuencia", x = NULL)+
  scale_y_continuous(labels = label_percent())+
  geom_text(aes(label = scales::percent(Nacional)), 
            position = position_dodge(width = 0.9),
            vjust = -0.5,
            color = "black", size = 3, fontface = "bold") +
  theme_few() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1),
              legend.position = "none")+
  scale_fill_manual(values = c("No sé" = "darkred", "Sí" = "darkgreen", "No contestó" = "orange")) 

print(AP4_9_4_nac )

Se repite el chunk con el Triangulo dorado, cambiando únicamente el agrumento “y=” al inicio de la instrucción aes()

# Crear el gráfico de barras
AP4_9_4_td <- ggplot(AP4_9_4, aes(x = Vecinos, y = Triangulo_Dorado, fill = Vecinos)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Organización Vecnial: TD", y = "Frecuencia", x = NULL)+
  scale_y_continuous(labels = label_percent())+
    geom_text(aes(label = scales::percent(Triangulo_Dorado)), 
            position = position_dodge(width = 0.9),
            vjust = -0.5,
            color = "black", size = 3, fontface = "bold") +
  theme_few() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1),
              legend.position = "none")+
  scale_fill_manual(values = c("No sé" = "darkred", "Sí" = "darkgreen", "No contestó" = "orange")) 

print(AP4_9_4_td)

Una vez que se generaron ambos gráficos, se procederá a juntarlos con la finción cowplot

AP4_9_4_graf <- cowplot::plot_grid(AP4_9_4_td, AP4_9_4_nac, ncol = 2)
print (AP4_9_4_graf)

Análisis de pregunta AP5_1_05: Acciones en municipio/localidad: atención a jóvenes para reducir el pandillerismo y la delincuencia juvenil.

Posibles respuestas: 1 Sí, 2 No Sabe,3 No se realizó, 9 No responde

Para responder esta pregunta a nivel nacional, se utiliza el siguiente código el cual agrupa las respuestas para dicha pregunta

```r
Nacional_svy %>%
  group_by(AP5_1_05) %>%
  summarise(prop = survey_mean())
```

```
## # A tibble: 4 × 3
##   AP5_1_05    prop  prop_se
##      <int>   <dbl>    <dbl>
## 1        1 0.182   0.00473 
## 2        2 0.345   0.00630 
## 3        3 0.470   0.00644 
## 4        9 0.00220 0.000705
```

El 47.04% de la población a nivel nacional que no está en el triangulo dorado considera que No existen acciones de atención a jóvenes en su municipio o localidad para reducir el pandillerismo y delincuencia juvenil.

Este procedimiento se repite para el triángulo dorado:

```r
Triangulo_Dorado_svy %>%
  group_by(AP5_1_05) %>%
  summarise(prop = survey_mean())
```

```
## # A tibble: 4 × 3
##   AP5_1_05    prop prop_se
##      <int>   <dbl>   <dbl>
## 1        1 0.236   0.0153 
## 2        2 0.371   0.0178 
## 3        3 0.391   0.0178 
## 4        9 0.00184 0.00158
```

El 39.08% de la población en el triangulo dorado considera que No existen acciones de atención a jóvenes en su municipio o localidad para reducir el pandillerismo y delincuencia juvenil.

Para construir un gráfico de esto, es necesario crear una tabla con estos valores:

Posibles respuestas: 1 Sí, 2 No Sabe,3 No se realizó, 9 No responde

# Crear la tabla con los valores originales
AP5_1_05 <- data.frame(
  Acciones = c ("Sí", "No sé", "No", "No contestó"),
  Nacional = c(0.181967963  , 0.345383991   , 0.470445075,0.002202971    ),
  Triangulo_Dorado = c (0.236430685 , 0.370912859   , 0.390819370, 0.001837086)
)

# Imprimir la tabla
print(AP5_1_05)

##      Acciones    Nacional Triangulo_Dorado
## 1          Sí 0.181967963      0.236430685
## 2       No sé 0.345383991      0.370912859
## 3          No 0.470445075      0.390819370
## 4 No contestó 0.002202971      0.001837086

Primeramente se crea un gráfico que refleje la situación a nivel nacional utilizando el siguiente código de ggplot:

# Crear el gráfico de barras
AP5_1_05_nac <- ggplot(AP5_1_05, aes(x = Acciones, y = Nacional, fill = Acciones)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Atención a Jóvenes: Nac", y = "Frecuencia", x = NULL)+
  scale_y_continuous(labels = label_percent())+
  geom_text(aes(label = scales::percent(Nacional)), 
            position = position_dodge(width = 0.9),
            vjust = -0.5,
            color = "black", size = 3, fontface = "bold") +
  theme_few() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1),
              legend.position = "none")+
  scale_fill_manual(values = c("No" = "darkred", "Sí" = "darkgreen", "No sé" = "orange")) 

print(AP5_1_05_nac)

Se repite el chunk con el Triangulo dorado, cambiando únicamente el agrumento “y=” al inicio de la instrucción aes()

# Crear el gráfico de barras
AP5_1_05_td <- ggplot(AP5_1_05, aes(x = Acciones, y = Triangulo_Dorado, fill = Acciones)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Atención a Jóvenes: TD", y = "Frecuencia", x = NULL)+
  scale_y_continuous(labels = label_percent())+
  geom_text(aes(label = scales::percent(Triangulo_Dorado)), 
            position = position_dodge(width = 0.9),
            vjust = -0.5,
            color = "black", size = 3, fontface = "bold") +
  theme_few() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1),
              legend.position = "none")+
  scale_fill_manual(values = c("No" = "darkred", "Sí" = "darkgreen", "No sé" = "orange")) 

print(AP5_1_05_td)

Una vez que se generaron ambos gráficos, se procederá a juntarlos con la finción cowplot

AP5_1_05_graf <- cowplot::plot_grid(AP5_1_05_td, AP5_1_05_nac, ncol = 2)
print (AP5_1_05_graf)

#### Análisis de pregunta AP4_2_03: Narcotráfico como principal tema de preocupación.

Para responder esta pregunta a nivel nacional, se utiliza el siguiente código el cual agrupa las respuestas para dicha pregunta

```r
Nacional_svy %>%
  group_by(AP4_2_03) %>%
  summarise(prop = survey_mean())
```

```
## # A tibble: 2 × 3
##   AP4_2_03  prop prop_se
##      <int> <dbl>   <dbl>
## 1        0 0.779 0.00536
## 2        1 0.221 0.00536
```

El narcotráfico es uno de los tres temas que más le preocupan a la población a nivel nacional fuera del triángulo dorado, con un 22.10%

Este procedimiento se repite para el triángulo dorado:

```r
Triangulo_Dorado_svy %>%
  group_by(AP4_2_03) %>%
  summarise(prop = survey_mean())
```

```
## # A tibble: 2 × 3
##   AP4_2_03  prop prop_se
##      <int> <dbl>   <dbl>
## 1        0 0.771  0.0149
## 2        1 0.229  0.0149
```

El narcotráfico es uno de los tres temas que más le preocupan a la población en el triángulo dorado, con un 22.90%

Para construir un gráfico de esto, es necesario crear una tabla con estos valores:

# Crear la tabla con los valores originales
AP4_2_03 <- data.frame(
  Narcotráfico = c ("No", "Sí"),
  Nacional = c(0.7789939, 0.2210061 ),
  Triangulo_Dorado = c (0.7709282   , 0.2290718 )
)

# Imprimir la tabla
print(AP4_2_03)

##   Narcotráfico  Nacional Triangulo_Dorado
## 1           No 0.7789939        0.7709282
## 2           Sí 0.2210061        0.2290718

Primeramente se crea un gráfico que refleje la situación a nivel nacional utilizando el siguiente código de ggplot:

# Crear el gráfico de barras
AP4_2_03_nac <- ggplot(AP4_2_03, aes(x = Narcotráfico , y = Nacional, fill = Narcotráfico)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Narcotráfico: Nivel nacional", y = "Frecuencia", x = NULL)+
  scale_y_continuous(labels = label_percent())+
   geom_text(aes(label = scales::percent(Nacional)), 
            position = position_dodge(width = 0.9),
            vjust = -0.5,
            color = "black", size = 3.7, fontface = "bold") +
  theme_few() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1),
              legend.position = "none")+
  scale_fill_manual(values = c("No" = "darkred", "Sí" = "darkgreen")) 

print(AP4_2_03_nac)

Se repite el chunk con el Triangulo dorado, cambiando únicamente el agrumento “y=” al inicio de la instrucción aes()

# Crear el gráfico de barras
AP4_2_03_td <- ggplot(AP4_2_03, aes(x = Narcotráfico , y = Triangulo_Dorado, fill = Narcotráfico )) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Narcotráfico: Triángulo Dorado", y = "Frecuencia", x = NULL)+
  scale_y_continuous(labels = label_percent())+
  geom_text(aes(label = scales::percent(Triangulo_Dorado)), 
            position = position_dodge(width = 0.9),
            vjust = -0.5,
            color = "black", size = 3.7, fontface = "bold") +
  theme_few() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1),
              legend.position = "none")+
  scale_fill_manual(values = c("No" = "darkred", "Sí" = "darkgreen"))

print(AP4_2_03_td)

Una vez que se generaron ambos gráficos, se procederá a juntarlos con la finción cowplot

AP4_2_03_graf <- cowplot::plot_grid(AP4_2_03_td, AP4_2_03_nac, ncol = 2)
print (AP4_2_03_graf)

Análisis de pregunta AP5_1_12: Existencia de Acciones para combatir el Narcotráfico.

Posibles respuestas: 1 Sí, 2 No Sabe,3 No se realizó, 9 No responde

Para responder esta pregunta a nivel nacional, se utiliza el siguiente código el cual agrupa las respuestas para dicha pregunta

```r
Nacional_svy %>%
  group_by(AP5_1_12) %>%
  summarise(prop = survey_mean())
```

```
## # A tibble: 4 × 3
##   AP5_1_12    prop  prop_se
##      <int>   <dbl>    <dbl>
## 1        1 0.135   0.00422 
## 2        2 0.348   0.00625 
## 3        3 0.516   0.00647 
## 4        9 0.00146 0.000353
```

El 51.56% de la población a nivel nacional que no está en el triangulo dorado que No existen acciones para combatir el narcotráfico en su localidad

Este procedimiento se repite para el triángulo dorado:

```r
Triangulo_Dorado_svy %>%
  group_by(AP5_1_12) %>%
  summarise(prop = survey_mean())
```

```
## # A tibble: 4 × 3
##   AP5_1_12     prop  prop_se
##      <int>    <dbl>    <dbl>
## 1        1 0.208    0.0152  
## 2        2 0.284    0.0160  
## 3        3 0.508    0.0183  
## 4        9 0.000288 0.000288
```

El 50.84% de la población en el triangulo dorado que No existen acciones para combatir el narcotráfico en su localidad

Para construir un gráfico de esto, es necesario crear una tabla con estos valores:

# Crear la tabla con los valores originales
AP5_1_12 <- data.frame(
  Acciones_Narcotráfico = c ("Sí", "No sé", "No", "No contestó"),
  Nacional = c(0.134655994  , 0.348253062   , 0.515629816,0.001461128    ),
  Triangulo_Dorado = c (0.2075816903        ,0.2837030250       , 0.5084273496, 0.0002879351    )
)

# Imprimir la tabla
print(AP5_1_12)

##   Acciones_Narcotráfico    Nacional Triangulo_Dorado
## 1                    Sí 0.134655994     0.2075816903
## 2                 No sé 0.348253062     0.2837030250
## 3                    No 0.515629816     0.5084273496
## 4           No contestó 0.001461128     0.0002879351

Primeramente se crea un gráfico que refleje la situación a nivel nacional utilizando el siguiente código de ggplot:

# Crear el gráfico de barras
AP5_1_12_nac <- ggplot(AP5_1_12, aes(x = Acciones_Narcotráfico, y = Nacional, fill = Acciones_Narcotráfico)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Acciones Narco: Nivel nacional", y = "Frecuencia", x = NULL)+
  scale_y_continuous(labels = label_percent())+
   geom_text(aes(label = scales::percent(Nacional)), 
            position = position_dodge(width = 0.9),
            vjust = -0.5,
            color = "black", size = 3, fontface = "bold") +
  theme_few() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1),
              legend.position = "none")+
  scale_fill_manual(values = c("No" = "darkred", "Sí" = "darkgreen", "No sé" = "orange"))  

print(AP5_1_12_nac)

Se repite el chunk con el Triangulo dorado, cambiando únicamente el agrumento “y=” al inicio de la instrucción aes()

# Crear el gráfico de barras
AP5_1_12_td <- ggplot(AP5_1_12, aes(x = Acciones_Narcotráfico, y = Triangulo_Dorado, fill = Acciones_Narcotráfico)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(title = "Acciones Narco: TD", y = "Frecuencia", x = NULL)+
  scale_y_continuous(labels = label_percent())+
  geom_text(aes(label = scales::percent(Triangulo_Dorado)), 
            position = position_dodge(width = 0.9),
            vjust = -0.5,
            color = "black", size = 3, fontface = "bold") +
  theme_few() +
  theme(axis.text.x = element_text(angle = 90, hjust = 1),
              legend.position = "none")+
  scale_fill_manual(values = c("No" = "darkred", "Sí" = "darkgreen", "No sé" = "orange")) 

print(AP5_1_12_td)

Una vez que se generaron ambos gráficos, se procederá a juntarlos con la finción cowplot

AP5_1_12_graf <- cowplot::plot_grid(AP5_1_12_td, AP5_1_12_nac, ncol = 2)
print (AP5_1_12_graf)

Gráfico Final

Una vez realizados los 3 gráficos, es posible combinar los tres gráficos lo cual permite obtener un panorama completo acerca del pandillerismo a nivel nacional, y en el triángulo dorado.

print(AP4_5_02_graf)

print(AP4_9_4_graf)

print(AP5_1_05_graf)

print(AP4_2_03_graf)

print (AP5_1_12_graf)

Primeras conclusiones

Las graficas evidencian que existen mayores niveles de pandillerismo violento a nivel nacional fuera del triángulo dorado. Otro hallazgo interesante es que, aunque se reportan mayores niveles de organización vecinal a nivel nacional que en el triángulo dorado, en este se llevaron a cabo más medidas de atención a los jóvenes para disminuir el pandillerismo y la delincuencia juvenil.

En cuanto al narcotráfico, la preocupación es ligeramente mayor en el triángulo dorado, de igual manera, esta zona del país realiza más acciones para combatirlo que el resto del país.

Sin enmbargo, es posible que estos resultados sean producto de la variabilidad aleatoria. Para descartar esto y llegar a conclusiones más robustas es necesario realizar diferentes Pruebas de Hipótesis de Diferencia de Proporciones

Pruebas de Hipótesis: Diferencias de proporciones.

La utilización de pruebas de hipótesis de diferencia de proporciones es fundamental al comparar dos proporciones, ya que proporcionan un marco estadístico robusto para evaluar si las diferencias observadas entre las proporciones en dos grupos son estadísticamente significativas o simplemente resultado de la variabilidad aleatoria. Estas pruebas permiten a los investigadores inferir si las disparidades observadas entre las proporciones son lo suficientemente grandes como para considerarse más allá de lo que podría esperarse debido al azar. Al establecer y probar hipótesis nulas y alternativas, estas pruebas ofrecen una herramienta objetiva para la toma de decisiones en contextos que van desde la investigación científica hasta la toma de decisiones en negocios y políticas, contribuyendo así a una comprensión más profunda y fundamentada de las diferencias entre las proporciones en cuestión.

La fórmula para realizar pruebas de hipótesis de diferencia de proporciones es la siguiente:

En esta fórmula: - Z: Estadístico de prueba usado para realizar una prueba de hipótesis. - (p1): Primera proporción. - (p2): Segunda proporción. - (p1-p2): Diferencia en las proporciones. - p: Proporción Combinada. - (n1): Tamaño de muestra de grupo de la primera proporción. - (n2): Tamaño de muestra de grupo de la segunda proporción.

Comprendida esta fórmula, podremos comenzar a realizar pruebas de hipótesis para cada pregunta planteada en el análisis:

Prueba de Hipótesis de la pregunta AP4_5_02: ¿Sabe usted o ha escuchado si en los alrededores de su vivienda Existe pandillerismo o bandas violentas?

El primer paso para realizar una prueba de hipótesis de diferencia de proporciones es definir la hipótesis nula y la hipótesis alternativa.

La hipótesis nula H0 supone que la diferencia entre las proporciones es 0, por lo tanto, las proporciones son iguales, mientras que H1, la hipótesis alternativa, supone que la diferencia entre las proporciones es mayor a 0. Esto queda expresado de la siguiente manera:

                                          Ho: p1 -p2 = 0
                                          H1: p1 - p2 > 0

Para hacer una prueba de hipótesis de esta pregunta, llamamos a la tabla que creamos con las proporciones anteriormente:

print(AP4_5_02)

##   Pandillerismo  Nacional Triangulo_Dorado
## 1            No 0.2694767        0.3181847
## 2            Sí 0.7305233        0.6818153

Una vez desplegada la tabla, podemos comenzar a llenar los datos necesarios para realizar los cálculos requeridos

Llenado de datos y cálculo:

P1_AP4_5_02 <- 0.7305233 # Proporción de pandillerismo a Nivel Nacional
P2_AP4_5_02 <- 0.6818153 # Proporción de pandillerismo en el Triángulo dorado

Estas son las proporciones que se analizarán, sin embargo, estas son proporciones de la población total, gracias al uso del factor de expansión. Para sacar el tamaño de la muestra, únicamente deberemos de sacar el tamaño de las bases de datos antes de aplicar el factor de expansión. lo cual se hará utilizando la función length:

N1 <- length(Nacional$AP4_5_02)
N2 <- length(Triangulo_Dorado$AP4_5_02)

cat("El tamaño de muestra a Nivel Nacional (N1) es", N1, "\n","El tamaño de muestra del Triángulo Dorado (N2) es", N2)

## El tamaño de muestra a Nivel Nacional (N1) es 12444 
##  El tamaño de muestra del Triángulo Dorado (N2) es 1005

Conocidos estos datos, se continúa con el cálculo

Cálculo del Estadístico de Prueba (Z)

A continuación, se muestra el proceso para calcular el estadístico de prueba Z, el siguiente chunk de código contiene la fórmula previamente mostrada, guardando ciertos elementos en variables Q para simplificar la sintaxis del código:

ns = 1-.95 # Nivel de significación para realizar la prueba de hipótesis.

Q1_AP4_5_02  = 1 - P1_AP4_5_02 # Probabilidad de un fracaso de la primera muestra (1−p1)


Q2_AP4_5_02 = 1 - P2_AP4_5_02 # Probabilidad de un fracaso de la primera muestra (1−p2)

## Fórmula Proporción Combinada.
PY_AP4_5_02 = ((N1 *P1_AP4_5_02) + (N2 * P2_AP4_5_02) ) / (N1 + N2)
QY_AP4_5_02  = (1 - PY_AP4_5_02 )

### Cálculo del Estadístico de Prueba
Z_AP4_5_02  = ((P1_AP4_5_02- P2_AP4_5_02) / sqrt ( (PY_AP4_5_02 * QY_AP4_5_02) * ((1/N1) + (1/N2))))
cat("El estadístico de prueba es", Z_AP4_5_02)

## El estadístico de prueba es 3.333588

El estadístico de prueba será de utilidad para mostrar si es posible rechazar H0

Prueba de Hipótesis: Valor crítico y Valor p.

Una vez obtenido el estadístico de prueba Z, es necesario calcular el valor crítico Z. El valor Z representa el punto de corte en la distribución, más allá del cual se rechazaría la hipótesis nula, y se calcula en base al nivel de confianza especificado (1-0.05). Esto se hace con el siguiente código:

Z = qnorm(1-ns)
Z

## [1] 1.644854

Con este valor se realizará la prueba de hipótesis, si este es mayor a Z, se rechaza H0, y si no, se concluye que no es posible rechazar H0.

if (Z_AP4_5_02 > Z)
  cat("Se rechaza Ho")

## Se rechaza Ho

if (Z_AP4_5_02 < Z)
  cat("No es posible rechazar Ho")

El resultado de esta primera prueba de hipótesis es que existe evidencia suficiente para rechazar H0, y decir que existe diferencia significativa entre las proporciones de existencia de pandillerismo a nivel nacional y en el triángulo dorado. Para confirmar estos resultados, es posible realizar una prueba de hipótesis de valor p, el cual indica que si el cualculo de valor p del valor crítico es mayoral nivel de significancia, es posible rechazar H0.

### Cálculo de Valor P
VP_AP4_5_02 = 1 - pnorm (Z_AP4_5_02) 
cat("El valor p del valor crítico es", VP_AP4_5_02, "\n")

## El valor p del valor crítico es 0.0004286673

### Prueba de Hipótesis de Valor P
if (VP_AP4_5_02 < ns)
  cat("Se rechaza Ho")

## Se rechaza Ho

if (VP_AP4_5_02 > ns)
  cat("No es posible rechazar Ho")

Esta segunda prueba de hipótesis permite confirmar que es posible rechazar H0, y en efecto, existe una diferencia significativa entre ambas proporciones. Para conocer un valor a proximado de esta diferencia deberemos de calcular el intervalo de confianza:

Intervalo de Confianza: Cálculo y Gráficos.

El intervalo de confianza es un rango estadístico que proporciona una estimación de la variabilidad de un parámetro, como la diferencia de proporciones. En pruebas de diferencia de proporciones, se utiliza para expresar la incertidumbre en la estimación puntual y evaluar la significancia estadística de la diferencia.

#calcula del valor crítico de la distribución normal estándar (Z) para un nivel de confianza de 1.96.
Z_aplha = abs(qnorm(ns/2))
round (Z_aplha, 4)

## [1] 1.96

Q1_AP4_5_02  = 1 - P1_AP4_5_02 # Probabilidad de un fracaso de la primera muestra (1−p1)


Q2_AP4_5_02 = 1 - P2_AP4_5_02 # Probabilidad de un fracaso de la primera muestra (1−p2)


# Cálculo del Limite Superior
linf_AP4_5_02 = (P1_AP4_5_02  -P2_AP4_5_02) - Z_aplha * sqrt ( ((P1_AP4_5_02 *Q1_AP4_5_02)/N1) + ((P2_AP4_5_02*Q2_AP4_5_02)/N2)  )

# Cálculo del Limite Inferior
lsup_AP4_5_02 = (P1_AP4_5_02  -P2_AP4_5_02) + Z_aplha * sqrt ( ((P1_AP4_5_02 *Q1_AP4_5_02)/N1) + ((P2_AP4_5_02*Q2_AP4_5_02)/N2)  )

cat("El intervalo de confianza para la diferencia de proporciones es: [" , linf_AP4_5_02 , "," ,lsup_AP4_5_02, "]")

## El intervalo de confianza para la diferencia de proporciones es: [ 0.01887509 , 0.07854091 ]

intervalo_confianza_AP4_5_02 <- c(linf_AP4_5_02, lsup_AP4_5_02)

# Crea un marco de datos para el gráfico
df_intervalo_confianza_AP4_5_02 <- data.frame(x = c("Intervalo de Confianza"),
                 y = c(mean(intervalo_confianza_AP4_5_02)))
df_intervalo_confianza_AP4_5_02

##                        x        y
## 1 Intervalo de Confianza 0.048708

# Trazamos un punto específico del promedio de los límites
punto_especifico <- 0.048708

# Crea el gráfico utilizando ggplot2
IC_AP4_5_02 <- ggplot(df_intervalo_confianza_AP4_5_02, aes(x, y)) +
  geom_errorbar(aes(ymin = min(intervalo_confianza_AP4_5_02), ymax = max(intervalo_confianza_AP4_5_02)),
                width = 0.2, color = "black", size = 1.5) +
  geom_point(aes(x = "Intervalo de Confianza", y = punto_especifico), color = "red", size = 6) +
  scale_y_continuous(labels = label_percent()) +
  labs(title = "Intervalo de Confianza: Diferencia en la Existencia de Pandillerismo",
       y = "Diferencia de Proporciones") +
  theme_few()

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

print(IC_AP4_5_02)

Este grafico del intervalo de confianza, quiere decir que la verdadera diferencia entre el pandillerismo reportado a nivel nacional y el reportado en el triángulo dorado se encuentra entre el 2% y el 8%.

Prueba de Hipótesis de la pregunta AP4_9_4: ¿Se han organizado la mayoría de los vecinos para resolver los problemas de pandillerismo violento?

                                          Ho: p1 -p2 = 0
                                          H1: p1 - p2 > 0

Para hacer una prueba de hipótesis de esta pregunta, llamamos a la tabla que creamos con las proporciones anteriormente:

print(AP4_9_4)

##       Vecinos   Nacional Triangulo_Dorado
## 1          Sí 0.27455532       0.19037757
## 2       No sé 0.70759907       0.78320589
## 3 No contestó 0.01784562       0.02641654

Una vez desplegada la tabla, podemos comenzar a llenar los datos necesarios para realizar los cálculos requeridos

Llenado de datos y cálculo:

P1_AP4_9_4 <- 0.27455532 # Proporción a Nivel Nacional
P2_AP4_9_4 <- 0.19037757     # Proporción en el Triángulo dorado

N1 <- length(Nacional$AP4_5_02)
N2 <- length(Triangulo_Dorado$AP4_5_02)

cat("El tamaño de muestra a Nivel Nacional (N1) es", N1, "\n","El tamaño de muestra del Triángulo Dorado (N2) es", N2)

## El tamaño de muestra a Nivel Nacional (N1) es 12444 
##  El tamaño de muestra del Triángulo Dorado (N2) es 1005

Conocidos estos datos, se continúa con el cálculo

Cálculo del Estadístico de Prueba (Z)

Calcular Estadístico de Prueba (ZP)

ns = 1-.95 # Nivel de significación para realizar la prueba de hipótesis.

Q1_AP4_9_4 = 1 - P1_AP4_9_4 # Probabilidad de un fracaso de la primera muestra (1−p1)


Q2_AP4_9_4 = 1 - P2_AP4_9_4 # Probabilidad de un fracaso de la primera muestra (1−p2)

## Fórmula Proporción Combinada.
PY_AP4_9_4 = ((N1 *P1_AP4_9_4) + (N2 * P2_AP4_9_4) ) / (N1 + N2)
QY_AP4_9_4 = (1 - PY_AP4_9_4 )

### Cálculo del Estadístico de Prueba
Z_AP4_9_4  = ((P1_AP4_9_4- P2_AP4_9_4) / sqrt ( (PY_AP4_9_4 * QY_AP4_9_4) * ((1/N1) + (1/N2))))
cat("El estadístico de prueba es", Z_AP4_9_4)

## El estadístico de prueba es 5.793706

El estadístico de prueba será de utilidad para mostrar si es posible rechazar H0

Prueba de Hipótesis: Valor crítico y Valor p.

Z = qnorm(1-ns)
Z

## [1] 1.644854

Con este valor se realizará la prueba de hipótesis, si este es mayor a Z, se rechaza H0, y si no, se concluye que no es posible rechazar H0.

if (Z_AP4_9_4 > Z)
  cat("Se rechaza Ho")

## Se rechaza Ho

if (Z_AP4_9_4 < Z)
  cat("No es posible rechazar Ho")

### Cálculo de Valor P
VP_AP4_9_4 = 1 - pnorm (Z_AP4_9_4) 

cat("El valor p del valor crítico es", VP_AP4_9_4, "\n")

## El valor p del valor crítico es 3.442503e-09

### Prueba de Hipótesis de Valor P
if (VP_AP4_9_4 < ns)
  cat("Se rechaza Ho")

## Se rechaza Ho

if (VP_AP4_9_4 > ns)
  cat("No es posible rechazar Ho")

Intervalo de Confianza: Cálculo y Gráficos.

#calcula del valor crítico de la distribución normal estándar (Z) para un nivel de confianza de 1.96.
Z_aplha = abs(qnorm(ns/2))
round (Z_aplha, 4)

## [1] 1.96

Q1_AP4_9_4  = 1 - P1_AP4_9_4 # Probabilidad de un fracaso de la primera muestra (1−p1)


Q2_AP4_9_4 = 1 - P2_AP4_9_4 # Probabilidad de un fracaso de la primera muestra (1−p2)


# Cálculo del Limite Superior
linf_AP4_9_4 = (P1_AP4_9_4  -P2_AP4_9_4) - Z_aplha * sqrt ( ((P1_AP4_9_4 *Q1_AP4_9_4)/N1) + ((P2_AP4_9_4*Q2_AP4_9_4)/N2)  )

# Cálculo del Limite Inferior
lsup_AP4_9_4 = (P1_AP4_9_4  -P2_AP4_9_4) + Z_aplha * sqrt ( ((P1_AP4_9_4 *Q1_AP4_9_4)/N1) + ((P2_AP4_9_4*Q2_AP4_9_4)/N2)  )

cat("El intervalo de confianza para la diferencia de proporciones es: [" , linf_AP4_9_4 , "," ,lsup_AP4_9_4, "]")

## El intervalo de confianza para la diferencia de proporciones es: [ 0.05867013 , 0.1096854 ]

intervalo_confianza_AP4_9_4 <- c( linf_AP4_9_4 , lsup_AP4_9_4)

# Crea un marco de datos para el gráfico
df_intervalo_confianza_AP4_9_4 <- data.frame(x = c("Intervalo de Confianza"),
                 y = c(mean(intervalo_confianza_AP4_9_4)))
df_intervalo_confianza_AP4_9_4

##                        x          y
## 1 Intervalo de Confianza 0.08417775

# Trazamos un punto específico del promedio de los límites
punto_especifico_AP4_9_4 <-     0.08417775

# Crea el gráfico utilizando ggplot2
IC_AP4_9_4 <- ggplot(df_intervalo_confianza_AP4_9_4, aes(x, y)) +
  geom_errorbar(aes(ymin = min(intervalo_confianza_AP4_9_4), ymax = max(intervalo_confianza_AP4_9_4)),
                width = 0.2, color = "black", size = 1.5) +
  geom_point(aes(x = "Intervalo de Confianza", y = punto_especifico_AP4_9_4), color = "red", size = 6) +
  scale_y_continuous(labels = label_percent()) +
  labs(title = "IC: Diferencia en la Organización para resolver pandillerismo",
       y = "Diferencia de Proporciones") +
  theme_few() 

print(IC_AP4_9_4)

Este gráfico muestra que la diferencia en la organización para resolver el pandillerismo entre el triángulo dorado y a nivel nacional se encuentra entre el 6% y el 11%.

Prueba de Hipótesis de la pregunta AP5_1_05: Acciones en municipio/localidad: atención a jóvenes para reducir delincuencia.

                                          Ho: p1 -p2 = 0
                                          H1: p1 - p2 > 0

Para hacer una prueba de hipótesis de esta pregunta, llamamos a la tabla que creamos con las proporciones anteriormente:

print(AP5_1_05)

##      Acciones    Nacional Triangulo_Dorado
## 1          Sí 0.181967963      0.236430685
## 2       No sé 0.345383991      0.370912859
## 3          No 0.470445075      0.390819370
## 4 No contestó 0.002202971      0.001837086

Una vez desplegada la tabla, podemos comenzar a llenar los datos necesarios para realizar los cálculos requeridos

Llenado de datos y cálculo:

P1_AP5_1_05 <- 0.470445075 # Proporción a Nivel Nacional
P2_AP5_1_05 <- 0.390819370   # Proporción en el Triángulo dorado

Cálculo del Estadístico de Prueba (Z)

ns = 1-.95 # Nivel de significación para realizar la prueba de hipótesis.

Q1_AP5_1_05 = 1 - P1_AP5_1_05 # Probabilidad de un fracaso de la primera muestra (1−p1)


Q2_AP5_1_05 = 1 - P2_AP5_1_05 # Probabilidad de un fracaso de la primera muestra (1−p2)

## Fórmula Proporción Combinada.
PY_AP5_1_05 = ((N1 *P1_AP5_1_05) + (N2 * P2_AP5_1_05) ) / (N1 + N2)
QY_AP5_1_05 = (1 - PY_AP5_1_05 )

### Cálculo del Estadístico de Prueba
Z_AP5_1_05  = ((P1_AP5_1_05- P2_AP5_1_05) / sqrt ( (PY_AP5_1_05 * QY_AP5_1_05) * ((1/N1) + (1/N2))))
cat("El estadístico de prueba es", Z_AP5_1_05)

## El estadístico de prueba es 4.868543

El estadístico de prueba será de utilidad para mostrar si es posible rechazar H0

Prueba de Hipótesis: Valor crítico y Valor p.

Z = qnorm(1-ns)
Z

## [1] 1.644854

Con este valor se realizará la prueba de hipótesis, si este es mayor a Z, se rechaza H0, y si no, se concluye que no es posible rechazar H0.

if (Z_AP5_1_05 > Z)
  cat("Se rechaza Ho")

## Se rechaza Ho

if (Z_AP5_1_05 < Z)
  cat("No es posible rechazar Ho")

### Cálculo de Valor P
VP_AP5_1_05 = 1 - pnorm (Z_AP5_1_05) 

cat("El valor p del valor crítico es", VP_AP5_1_05, "\n")

## El valor p del valor crítico es 5.621192e-07

### Prueba de Hipótesis de Valor P
if (VP_AP5_1_05 < ns)
  cat("Se rechaza Ho")

## Se rechaza Ho

if (VP_AP5_1_05 > ns)
  cat("No es posible rechazar Ho")

Intervalo de Confianza: Cálculo y Gráficos.

#calcula del valor crítico de la distribución normal estándar (Z) para un nivel de confianza de 1.96.
Z_aplha = abs(qnorm(ns/2))
round (Z_aplha, 4)

## [1] 1.96

Q1_AP5_1_05  = 1 - P1_AP5_1_05 # Probabilidad de un fracaso de la primera muestra (1−p1)


Q2_AP5_1_05 = 1 - P2_AP5_1_05 # Probabilidad de un fracaso de la primera muestra (1−p2)


# Cálculo del Limite Superior
linf_AP5_1_05 = (P1_AP5_1_05  -P2_AP5_1_05) - Z_aplha * sqrt ( ((P1_AP5_1_05 *Q1_AP5_1_05)/N1) + ((P2_AP5_1_05*Q2_AP5_1_05)/N2)  )

# Cálculo del Limite Inferior
lsup_AP5_1_05 = (P1_AP5_1_05  -P2_AP5_1_05) + Z_aplha * sqrt ( ((P1_AP5_1_05 *Q1_AP5_1_05)/N1) + ((P2_AP5_1_05*Q2_AP5_1_05)/N2)  )

cat("El intervalo de confianza para la diferencia de proporciones es: [" , linf_AP5_1_05 , "," ,lsup_AP5_1_05, "]")

## El intervalo de confianza para la diferencia de proporciones es: [ 0.04821029 , 0.1110411 ]

intervalo_confianza_AP5_1_05 <- c( linf_AP5_1_05 , lsup_AP5_1_05)

# Crea un marco de datos para el gráfico
df_intervalo_confianza_AP5_1_05 <- data.frame(x = c("Intervalo de Confianza"),
                 y = c(mean(intervalo_confianza_AP5_1_05)))
df_intervalo_confianza_AP5_1_05

##                        x         y
## 1 Intervalo de Confianza 0.0796257

# Trazamos un punto específico del promedio de los límites
punto_especifico_AP5_1_05 <-        0.0796257   

# Crea el gráfico utilizando ggplot2
IC_AP5_1_05 <- ggplot(df_intervalo_confianza_AP5_1_05, aes(x, y)) +
  geom_errorbar(aes(ymin = min(intervalo_confianza_AP5_1_05), ymax = max(intervalo_confianza_AP5_1_05)),
                width = 0.2, color = "black", size = 1.5) +
  geom_point(aes(x = "Intervalo de Confianza", y = punto_especifico_AP5_1_05), color = "red", size = 6) +
  scale_y_continuous(labels = label_percent()) +
  labs(title = "IC: Diferencia en las Acciones para resolver pandillerismo",
       y = "Diferencia de Proporciones") +
  theme_few() 

print(IC_AP5_1_05)

Este gráfico representa que la verdadera diferencia entre las acciones tomadas para resolver el pandillerismo se encuentra entre 4.8% y 11%

Prueba de Hipótesis de la pregunta AP4_2_03: Narcotráfico como uno de los principales temas de preocupación.

                                          Ho: p1 -p2 = 0
                                          H1: p1 - p2 > 0

Para hacer una prueba de hipótesis de esta pregunta, llamamos a la tabla que creamos con las proporciones anteriormente:

print(AP4_2_03)

##   Narcotráfico  Nacional Triangulo_Dorado
## 1           No 0.7789939        0.7709282
## 2           Sí 0.2210061        0.2290718

Una vez desplegada la tabla, podemos comenzar a llenar los datos necesarios para realizar los cálculos requeridos

Llenado de datos y cálculo:

P1_AP4_2_03 <- 0.2210061    # Proporción a Nivel Nacional
P2_AP4_2_03 <- 0.2290718         # Proporción en el Triángulo dorado

Se nota que la proporción mayor es la del triángulo dorado. En nuestro caso siempre será necesario colocar la mayor proporción en P1, así que volvemos a cargar los datos:

P1_AP4_2_03 <- 0.2290718         # Proporción en el Triángulo dorado 
P2_AP4_2_03 <- 0.2210061    # Proporción a Nivel Nacional

También deberemos cambiar el tamaño de las N, esto se corregirá posteriormente en el código si es el caso para no generar resultados incorrectos:

Volvemos a cargar las poblaciones:

N1 <- length(Triangulo_Dorado$AP4_5_02)
N2 <- length(Nacional$AP4_5_02)

cat("El tamaño de muestra en el Triángulo Dorado (N1) es", N1, "\n","El tamaño de muestra a Nivel Nacional (N2) es ", N2)

## El tamaño de muestra en el Triángulo Dorado (N1) es 1005 
##  El tamaño de muestra a Nivel Nacional (N2) es  12444

Cálculo del Estadístico de Prueba (Z)

Q1_AP4_2_03 = 1 -P1_AP4_2_03 #Probabilidad de un fracaso de la primera muestra


Q2_AP4_2_03 = 1 - P2_AP4_2_03 #Probabilidad de un fracaso de la primera muestra

PY_AP4_2_03 = ((N1 *P1_AP4_2_03) + (N2 * P2_AP4_2_03) ) / (N1 + N2)
QY_AP4_2_03 = (1 - PY_AP4_2_03)

Z_AP4_2_03 = ((P1_AP4_2_03 - P2_AP4_2_03) / sqrt ( (P2_AP4_2_03 * QY_AP4_2_03) * ((1/N1) + (1/N2))))
cat("El estadístico de prueba es", Z_AP4_2_03)

## El estadístico de prueba es 0.5930059

El estadístico de prueba será de utilidad para mostrar si es posible rechazar H0

Prueba de Hipótesis: Valor crítico y Valor p.

Z = qnorm(1-ns)
Z

## [1] 1.644854

Con este valor se realizará la prueba de hipótesis, si este es mayor a Z, se rechaza H0, y si no, se concluye que no es posible rechazar H0.

if (Z_AP4_2_03> Z)
  cat("Se rechaza Ho")
if (Z_AP4_2_03< Z)
  cat("No es posible rechazar Ho")

## No es posible rechazar Ho

El resultado de esta primera prueba de hipótesis es que no existe evidencia suficiente para rechazar H0, por lo tanto no existe evidencia suficiente para afirmar que la diferencia entre las proporciones de preocupación por el narcotráfico es significativa. Para confirmar estos resultados, es posible realizar una prueba de hipótesis de valor p, el cual indica que si el cualculo de valor p del valor crítico es mayoral nivel de significancia, es posible rechazar H0.

### Cálculo de Valor P
VP_AP4_2_03= 1 - pnorm (Z_AP4_2_03) 

cat("El valor p del valor crítico es", VP_AP4_2_03, "\n")

## El valor p del valor crítico es 0.2765886

### Prueba de Hipótesis de Valor P
if (VP_AP4_2_03< ns)
  cat("Se rechaza Ho")
if (VP_AP4_2_03> ns)
  cat("No es posible rechazar Ho")

## No es posible rechazar Ho

Esta segunda prueba de hipótesis permite confirmar que es no posible rechazar H0, y en efecto, no existe una diferencia significativa entre ambas proporciones. Se calculará el intervalo de confianza para confirmar esto:

Intervalo de Confianza: Cálculo y Gráficos.

#calcula del valor crítico de la distribución normal estándar (Z) para un nivel de confianza de 1.96.
Z_aplha = abs(qnorm(ns/2))
round (Z_aplha, 4)

## [1] 1.96

Q1_AP4_2_03 = 1 - P1_AP4_2_03# Probabilidad de un fracaso de la primera muestra (1−p1)


Q2_AP4_2_03= 1 - P2_AP4_2_03# Probabilidad de un fracaso de la primera muestra (1−p2)


# Cálculo del Limite Superior
linf_AP4_2_03= (P1_AP4_2_03 -P2_AP4_2_03) - Z_aplha * sqrt ( ((P1_AP4_2_03*Q1_AP4_2_03)/N1) + ((P2_AP4_2_03*Q2_AP4_2_03)/N2)  )

# Cálculo del Limite Inferior
lsup_AP4_2_03= (P1_AP4_2_03 -P2_AP4_2_03) + Z_aplha * sqrt ( ((P1_AP4_2_03*Q1_AP4_2_03)/N1) + ((P2_AP4_2_03*Q2_AP4_2_03)/N2)  )

cat("El intervalo de confianza para la diferencia de proporciones es: [" , linf_AP4_2_03, "," ,lsup_AP4_2_03, "]")

## El intervalo de confianza para la diferencia de proporciones es: [ -0.01891883 , 0.03505023 ]

intervalo_confianza_AP4_2_03<- c( linf_AP4_2_03, lsup_AP4_2_03)

# Crea un marco de datos para el gráfico
df_intervalo_confianza_AP4_2_03<- data.frame(x = c("Intervalo de Confianza"),
                 y = c(mean(intervalo_confianza_AP4_2_03)))
df_intervalo_confianza_AP4_2_03

##                        x         y
## 1 Intervalo de Confianza 0.0080657

# Trazamos un punto específico del promedio de los límites
punto_especifico_AP4_2_03<-     0.0080657       

# Crea el gráfico utilizando ggplot2
IC_AP4_2_03<- ggplot(df_intervalo_confianza_AP4_2_03, aes(x, y)) +
  geom_errorbar(aes(ymin = min(intervalo_confianza_AP4_2_03), ymax = max(intervalo_confianza_AP4_2_03)),
                width = 0.2, color = "black", size = 1.5) +
  geom_point(aes(x = "Intervalo de Confianza", y = punto_especifico_AP4_2_03), color = "red", size = 6) +
  scale_y_continuous(labels = label_percent()) +
  labs(title = "IC: Preocupación por el Narcotráfico",
       y = "Diferencia de Proporciones") +
  theme_few()

print(IC_AP4_2_03)

Este gráfico revela que en efecto, no existe una diferencia significativa entre ambas proporciones, por lo tanto no es adecuado asegurar que el narcotráfico es más preocupante en el triángulo dorado que a nivel nacional.

Prueba de Hipótesis de la pregunta AP5_1_12*: Existencia de medidas para combatir el narcotráfico.

                                          Ho: p1 -p2 = 0
                                          H1: p1 - p2 > 0

Para hacer una prueba de hipótesis de esta pregunta, llamamos a la tabla que creamos con las proporciones anteriormente:

print(AP5_1_12)

##   Acciones_Narcotráfico    Nacional Triangulo_Dorado
## 1                    Sí 0.134655994     0.2075816903
## 2                 No sé 0.348253062     0.2837030250
## 3                    No 0.515629816     0.5084273496
## 4           No contestó 0.001461128     0.0002879351

Una vez desplegada la tabla, podemos comenzar a llenar los datos necesarios para realizar los cálculos requeridos

Llenado de datos y cálculo:

P1_AP5_1_12<- 0.515629816    # Proporción a Nivel Nacional
P2_AP5_1_12<- 0.5084273496       # Proporción en el Triángulo dorado

En esta prueba de proporciones observamos que la proporción a nivel nacional es mayor que la del triángulo dorado, por lo tanto es necesario volver a cargar las poblaciones como estaban en un inicio:

N1 <- length(Nacional$AP4_5_02)
N2 <- length(Triangulo_Dorado$AP4_5_02)

cat("El tamaño de muestra a Nivel Nacional (N1) es", N1, "\n","El tamaño de muestra del Triángulo Dorado (N2) es", N2)

## El tamaño de muestra a Nivel Nacional (N1) es 12444 
##  El tamaño de muestra del Triángulo Dorado (N2) es 1005

Cálculo del Estadístico de Prueba (Z)

ns = 1-.95 # Nivel de significación para realizar la prueba de hipótesis.

Q1_AP5_1_12= 1 - P1_AP5_1_12 # Probabilidad de un fracaso de la primera muestra (1−p1)


Q2_AP5_1_12= 1 - P2_AP5_1_12 # Probabilidad de un fracaso de la primera muestra (1−p2)

## Fórmula Proporción Combinada.
PY_AP5_1_12= ((N1 * P1_AP5_1_12) + (N2 * P2_AP5_1_12)) / (N1 + N2)
QY_AP5_1_12= (1 - PY_AP5_1_12)

### Cálculo del Estadístico de Prueba
Z_AP5_1_12 = ((P1_AP5_1_12- P2_AP5_1_12) / sqrt ( (PY_AP5_1_12* QY_AP5_1_12) * ((1/N1) + (1/N2))))
cat("El estadístico de prueba es", Z_AP5_1_12)

## El estadístico de prueba es 0.4394679

El estadístico de prueba será de utilidad para mostrar si es posible rechazar H0

Prueba de Hipótesis: Valor crítico y Valor p.

Z = qnorm(1-ns)
Z

## [1] 1.644854

Con este valor se realizará la prueba de hipótesis, si este es mayor a Z, se rechaza H0, y si no, se concluye que no es posible rechazar H0.

if (Z_AP5_1_12> Z)
  cat("Se rechaza Ho")
if (Z_AP5_1_12< Z)
  cat("No es posible rechazar Ho")

## No es posible rechazar Ho

El resultado de esta primera prueba de hipótesis es que no existe evidencia suficiente para rechazar H0, y decir que existe diferencia significativa entre las proporciones de medida de combate al narcotráfico a nivel nacional y en el triángulo dorado. Para confirmar estos resultados, es posible realizar una prueba de hipótesis de valor p, el cual indica que si el cualculo de valor p del valor crítico es mayoral nivel de significancia, es posible rechazar H0.

### Cálculo de Valor P
VP_AP5_1_12= 1 - pnorm (Z_AP5_1_12) 

cat("El valor p del valor crítico es", VP_AP5_1_12, "\n")

## El valor p del valor crítico es 0.3301613

### Prueba de Hipótesis de Valor P
if (VP_AP5_1_12< ns)
  cat("Se rechaza Ho")
if (VP_AP5_1_12> ns)
  cat("No es posible rechazar Ho")

## No es posible rechazar Ho

Esta segunda prueba de hipótesis permite confirmar que es no posible rechazar H0, y en efecto,no existe una diferencia significativa entre ambas proporciones. Se calculará el intervalo de confianza para confirmar esto:

Intervalo de Confianza: Cálculo y Gráficos.

#calcula del valor crítico de la distribución normal estándar (Z) para un nivel de confianza de 1.96.
Z_aplha = abs(qnorm(ns/2))
round (Z_aplha, 4)

## [1] 1.96

Q1_AP5_1_12 = 1 - P1_AP5_1_12 # Probabilidad de un fracaso de la primera muestra (1−p1)


Q2_AP5_1_12= 1 - P2_AP5_1_12 # Probabilidad de un fracaso de la primera muestra (1−p2)


# Cálculo del Limite Superior
linf_AP5_1_12= (P1_AP5_1_12 -P2_AP5_1_12) - Z_aplha * sqrt ( ((P1_AP5_1_12*Q1_AP5_1_12)/N1) + ((P2_AP5_1_12*Q2_AP5_1_12)/N2)  )

# Cálculo del Limite Inferior
lsup_AP5_1_12= (P1_AP5_1_12 -P2_AP5_1_12) + Z_aplha * sqrt ( ((P1_AP5_1_12*Q1_AP5_1_12)/N1) + ((P2_AP5_1_12*Q2_AP5_1_12)/N2)  )

cat("El intervalo de confianza para la diferencia de proporciones es: [" , linf_AP5_1_12, "," ,lsup_AP5_1_12, "]")

## El intervalo de confianza para la diferencia de proporciones es: [ -0.02492875 , 0.03933368 ]

intervalo_confianza_AP5_1_12<- c( linf_AP5_1_12, lsup_AP5_1_12)
intervalo_confianza_AP5_1_12

## [1] -0.02492875  0.03933368

# Crea un marco de datos para el gráfico
df_intervalo_confianza_AP5_1_12<- data.frame(x = c("Intervalo de Confianza"),
                 y = c(mean(intervalo_confianza_AP5_1_12)))
df_intervalo_confianza_AP5_1_12

##                        x           y
## 1 Intervalo de Confianza 0.007202466

# Trazamos un punto específico del promedio de los límites
punto_especifico_AP5_1_12 <-    0.007202466 

# Crea el gráfico utilizando ggplot2
IC_AP5_1_12_E <- ggplot(df_intervalo_confianza_AP5_1_12, aes(x, y)) +
  geom_errorbar(aes(ymin = min(intervalo_confianza_AP5_1_12), ymax = max(intervalo_confianza_AP5_1_12)),
                width = 0.2, color = "black", size = 1.5) +
  geom_point(aes(x = "Intervalo de Confianza", y = punto_especifico_AP5_1_12), color = "red", size = 6) +
  scale_y_continuous(labels = label_percent()) +
  labs(title = "IC: Medidas para combatir el narcotráfico",
       y = "Diferencia de Proporciones") +
  theme_few() 

print(IC_AP5_1_12_E)

Este gráfico representa que en efecto, no existe diferencia significativa entre las proporciones del triángulo dorado y a nivel nacional que afirman que no existen acciones para combatir el narcotráfico. Sin embargo esto nos deja la pregunta: ¿En dónde sí se realizan acciones para combatir el narcotráfico?

Para conocer esto deberemos de hacer otra prueba de hipótesis de diferencia de hipótesis, pero como en el caso anterior, deberemos cambiar P1 y N1 por el triángulo dorado y P2 y N2 a nivel nacional.

Llenado de datos y cálculo:

P1_AP5_1_12<- 0.2075816903   # Proporción en el triángulo dorado
P2_AP5_1_12<- 0.134655994        # Proporción a Nivel Nacional

N1 <- length(Triangulo_Dorado$AP4_5_02)
N2 <- length(Nacional$AP4_5_02)

cat("El tamaño de muestra en el Triángulo Dorado (N1) es", N1, "\n","El tamaño de muestra a Nivel Nacional (N2) es ", N2)

## El tamaño de muestra en el Triángulo Dorado (N1) es 1005 
##  El tamaño de muestra a Nivel Nacional (N2) es  12444

Cálculo del Estadístico de Prueba (Z)

ns = 1-.95 # Nivel de significación para realizar la prueba de hipótesis.

Q1_AP5_1_12= 1 - P1_AP5_1_12# Probabilidad de un fracaso de la primera muestra (1−p1)


Q2_AP5_1_12= 1 - P2_AP5_1_12# Probabilidad de un fracaso de la primera muestra (1−p2)

## Fórmula Proporción Combinada.
PY_AP5_1_12= ((N1 * P1_AP5_1_12) + (N2 * P2_AP5_1_12)) / (N1 + N2)
QY_AP5_1_12= (1 - PY_AP5_1_12)

### Cálculo del Estadístico de Prueba
Z_AP5_1_12 = ((P1_AP5_1_12- P2_AP5_1_12) / sqrt ((PY_AP5_1_12* QY_AP5_1_12) * ((1/N1) + (1/N2))))
cat("El estadístico de prueba es", Z_AP5_1_12)

## El estadístico de prueba es 6.406907

El estadístico de prueba será de utilidad para mostrar si es posible rechazar H0

Prueba de Hipótesis: Valor crítico y Valor p.

Z = qnorm(1-ns)
Z

## [1] 1.644854

Con este valor se realizará la prueba de hipótesis, si este es mayor a Z, se rechaza H0, y si no, se concluye que no es posible rechazar H0.

if (Z_AP5_1_12> Z)
  cat("Se rechaza Ho")

## Se rechaza Ho

if (Z_AP5_1_12< Z)
  cat("No es posible rechazar Ho")

El resultado de esta primera prueba de hipótesis es que si existe evidencia suficiente para rechazar H0 y afirmar que en el triángulo dorado se realizan más acciones para combatir el narcotráfico que a nivel nacional. Para confirmar esto deberemos de hacer una prueba de valor P:

### Cálculo de Valor P
VP_AP5_1_12= 1 - pnorm (Z_AP5_1_12) 

cat("El valor p del valor crítico es", VP_AP5_1_12, "\n")

## El valor p del valor crítico es 7.425049e-11

### Prueba de Hipótesis de Valor P
if (VP_AP5_1_12< ns)
  cat("Se rechaza Ho")

## Se rechaza Ho

if (VP_AP5_1_12> ns)
  cat("No es posible rechazar Ho")

Esta segunda prueba de hipótesis permite confirmar que existe evidencia para rechazar H0.

Intervalo de Confianza: Cálculo y Gráficos.

#calcula del valor crítico de la distribución normal estándar (Z) para un nivel de confianza de 1.96.
Z_aplha = abs(qnorm(ns/2))
round (Z_aplha, 4)

## [1] 1.96

Q1_AP5_1_12 = 1 - P1_AP5_1_12# Probabilidad de un fracaso de la primera muestra (1−p1)


Q2_AP5_1_12= 1 - P2_AP5_1_12# Probabilidad de un fracaso de la primera muestra (1−p2)


# Cálculo del Limite Superior
linf_AP5_1_12= (P1_AP5_1_12 -P2_AP5_1_12) - Z_aplha * sqrt ( ((P1_AP5_1_12*Q1_AP5_1_12)/N1) + ((P2_AP5_1_12*Q2_AP5_1_12)/N2)  )

# Cálculo del Limite Inferior
lsup_AP5_1_12= (P1_AP5_1_12 -P2_AP5_1_12) + Z_aplha * sqrt ( ((P1_AP5_1_12*Q1_AP5_1_12)/N1) + ((P2_AP5_1_12*Q2_AP5_1_12)/N2)  )

cat("El intervalo de confianza para la diferencia de proporciones es: [" , linf_AP5_1_12, "," ,lsup_AP5_1_12, "]")

## El intervalo de confianza para la diferencia de proporciones es: [ 0.04714364 , 0.09870776 ]

Graficamos esto:

intervalo_confianza_AP5_1_12<- c( linf_AP5_1_12, lsup_AP5_1_12)

# Crea un marco de datos para el gráfico
df_intervalo_confianza_AP5_1_12<- data.frame(x = c("Intervalo de Confianza"),
                 y = c(mean(intervalo_confianza_AP5_1_12)))
df_intervalo_confianza_AP5_1_12

##                        x         y
## 1 Intervalo de Confianza 0.0729257

# Trazamos un punto específico del promedio de los límites
punto_especifico_AP5_1_12 <- 0.0729257

# Crea el gráfico utilizando ggplot2
IC_2_AP5_1_12 <- ggplot(df_intervalo_confianza_AP5_1_12, aes(x, y)) +
  geom_errorbar(aes(ymin = min(intervalo_confianza_AP5_1_12), ymax = max(intervalo_confianza_AP5_1_12)),
                width = 0.2, color = "black", size = 1.5) +
  geom_point(aes(x = "Intervalo de Confianza", y = punto_especifico_AP5_1_12), color = "red", size = 6) +
  scale_y_continuous(labels = label_percent()) +
  labs(title = "IC: Medidas para combatir el narcotráfico",
       y = "Diferencia de Proporciones") +
  theme_few() 

print(IC_2_AP5_1_12)

Esto nos deja ver que existe una diferencia de entre el 5% y el 10% entre las acciones percibidas para combatir el narcotráfico en el triángulo dorado que a nivel nacional.

Conclusiones finales

Este procedimiento nos permite concluir que existen mayores niveles de pandillerismo violento a nivel nacional fuera del triángulo dorado. Que se reportan mayores niveles de organización vecinal a nivel nacional que en el triángulo dorado, y que en este se llevaron a cabo más medidas de atención a los jóvenes para disminuir el pandillerismo y la delincuencia juvenil. Todas estas diferencias fueron significativas

En cuanto al narcotráfico, no es posible afirmar que la preocupación es mayor en el triángulo dorado, ni que existe una diferencia significativa entre las personas que afirmaron que no se realizan acciones para combatir el narcotráfico a nivel nacional y en el triángulo dorado, pues la diferencia de proporciones no resultó ser estadísticamente significativa, sin embargo, lo que sí resultó ser estadísticamente significativo es la diferencia de proporciones que nos permite afirmar que en el triángulo dorado se realizan más acciones para combatir el narcotráfico que a nivel nacional.

Se espera que el presente reporte sea de utilidad para calcular diferencias de proporciones y comprobar su significancia estadística.

Este documento fue creado por Emiliano Montalo Vásquez: www.linkedin.com/in/emiliano-montalvo-vásquez-979247281

Referencias

INEGI. (2023a). Encuesta Nacional de Victimización y Percepción sobre Seguridad Pública 2023. [Conjunto de datos] https://www.inegi.org.mx/programas/envipe/2023/#microdatos

INEGI. (2023b). Encuesta Nacional de Victimización y Percepción sobre Seguridad Pública 2023. https://www.inegi.org.mx/contenidos/programas/envipe/2023/doc/fd_envipe2023.pdf

INEGI. (2023c). COMUNICADO DE PRENSA NÚM. 546/23: Encuesta Nacional de Victimización y Percepción sobre Seguridad Pública 2023. https://www.inegi.org.mx/contenidos/saladeprensa/boletines/2023/ENVIPE/ENVIPE_23.pdf

Comparación de Proporciones: Uso de Factor de Expansión para encuestas, Cálculo de Proporciones, Prueba de Hipótesis de Diferencia de Proporciones y Cálculo de Intervalos de Confianza

Emiliano Montalvo Vásquez

2024-22-01

Introducción

Descarga de los datos.

Definición de librerías

Lectura de la base de datos

Relevancia del Factor de Expansión.

Ejemplo de uso del factor expansión

Creación y Limpieza de Bases de Datos.

Creación de base de datos nacional.

Creación de base de datos Triángulo Dorado.

Creación de objetos svy

Análisis de pregunta AP4_5_02: ¿Sabe usted o ha escuchado si en los alrededores de su vivienda Existe pandillerismo o bandas violentas?

Análisis de pregunta AP4_9_4: ¿Se han organizado la mayoría de los vecinos para resolver los problemas de pandillerismo violento?

Análisis de pregunta AP5_1_05: Acciones en municipio/localidad: atención a jóvenes para reducir el pandillerismo y la delincuencia juvenil.

Análisis de pregunta AP5_1_12: Existencia de Acciones para combatir el Narcotráfico.

Gráfico Final

Primeras conclusiones

Pruebas de Hipótesis: Diferencias de proporciones.

Prueba de Hipótesis de la pregunta AP4_5_02: ¿Sabe usted o ha escuchado si en los alrededores de su vivienda Existe pandillerismo o bandas violentas?

Llenado de datos y cálculo:

Cálculo del Estadístico de Prueba (Z)

Prueba de Hipótesis: Valor crítico y Valor p.

Intervalo de Confianza: Cálculo y Gráficos.

Prueba de Hipótesis de la pregunta AP4_9_4: ¿Se han organizado la mayoría de los vecinos para resolver los problemas de pandillerismo violento?

Llenado de datos y cálculo:

Cálculo del Estadístico de Prueba (Z)

Prueba de Hipótesis: Valor crítico y Valor p.

Intervalo de Confianza: Cálculo y Gráficos.

Prueba de Hipótesis de la pregunta AP5_1_05: Acciones en municipio/localidad: atención a jóvenes para reducir delincuencia.

Llenado de datos y cálculo:

Cálculo del Estadístico de Prueba (Z)

Prueba de Hipótesis: Valor crítico y Valor p.

Intervalo de Confianza: Cálculo y Gráficos.

Prueba de Hipótesis de la pregunta AP4_2_03: Narcotráfico como uno de los principales temas de preocupación.

Llenado de datos y cálculo:

Cálculo del Estadístico de Prueba (Z)

Prueba de Hipótesis: Valor crítico y Valor p.

Intervalo de Confianza: Cálculo y Gráficos.

Prueba de Hipótesis de la pregunta AP5_1_12*: Existencia de medidas para combatir el narcotráfico.

Llenado de datos y cálculo:

Cálculo del Estadístico de Prueba (Z)

Prueba de Hipótesis: Valor crítico y Valor p.

Intervalo de Confianza: Cálculo y Gráficos.

Llenado de datos y cálculo:

Cálculo del Estadístico de Prueba (Z)

Prueba de Hipótesis: Valor crítico y Valor p.

Intervalo de Confianza: Cálculo y Gráficos.

Conclusiones finales

Referencias